三语种英简体中日脑梗塞患者-护士床边对话合成数据集及元数据 - AI与医疗健康

三语种英简体中日脑梗塞患者-护士床边对话合成数据集及元数据Trilingual (EN/ZH-CN/JP) synthetic dataset of cerebral infarction patient-nurse bedside dialogs with metadata | medRxiv

环球医讯 / AI与医疗健康来源：www.medrxiv.org日本 - 英语2026-01-08 21:04:42 - 阅读时长2分钟 - 833字

日本京都大学与国家脑心血管中心团队开发出全球首个英/简体中/日三语种脑梗塞患者-护士床边对话合成数据集，该数据集通过大语言模型关联患者临床协变量表、护士特征及护理场景，生成标准化JSONL格式的结构化对话（每日7个场景），已通过日本学术振兴会资助验证；该合成数据不包含任何患者隐私信息，可应用于临床实践时间受限场景下的护理教学、护理记录质量评估实验研究，以及无法共享真实文本时的AI模型训练与基准测试，为医疗人工智能研发提供重要基础资源，同时规避了传统医疗语料因隐私限制导致的稀缺性问题。

摘要

我们提出一个大规模合成数据集，该数据集将患者脑梗塞实际分布的结构化背景信息、护士特征与多样化场景中的护患对话相关联。由于隐私和访问限制，医疗对话语料库十分稀缺；即使存在，也主要聚焦于医患互动，且元数据（临床协变量、医护人员特征等）有限。为弥补这一缺口，本资源通过患者协变量表和护士特征条件化大语言模型，采用标准化JSONL模式生成多语种日常结构化对话（每日7个场景）。潜在应用包括：在临床实践时间受限条件下支持护理教学（助力基于场景的治疗性沟通与形成性评估）、涉及护理记录格式及质量指标的受控实验研究，以及在无法共享真实文本时训练或基准测试AI模型（需符合所选模型的使用条款）。所有内容均为合成数据，不含任何受保护的健康信息。可复现脚本可实现患者与护士的配对、护理路径分配，并按比例生成对话内容。