摘要
我们提出了一种大规模合成数据集,该数据集将脑梗死患者的实际分布结构化背景信息、护士特征与多种场景下的护患对话相关联。由于隐私和访问限制,医疗对话语料库十分稀缺。即使有可用数据,也主要关注医患互动,并且提供的元数据(临床协变量、医护人员特征等)有限。为解决这一问题,本资源利用大型语言模型,以患者协变量表和护士特征为条件,使用标准化JSONL模式生成多语言、日常结构化的对话(每天7个场景)。潜在应用包括在临床实践时间有限的情况下支持护理教育(支持基于场景的治疗性沟通和形成性评估)、涉及护理记录格式和质量指标的受控实验研究,以及在无法共享实际文本时训练或评估人工智能模型(需遵守所选模型的使用条款)。所有内容均为合成数据,不含任何受保护的健康信息。可重现的脚本将患者与护士配对,分配护理路径,并大规模生成对话。
引言
我们构建了一个大规模演示数据集,包括脑梗死患者的背景、护士属性以及护患对话。整合结构化患者背景、医护人员属性和真实护患对话的训练资源仍然面临挑战。在医疗领域,由于隐私和访问限制,公共对话语料库很少,而现有的少数数据集往往侧重于医护人员-患者对话,且元数据有限。例如,He, X.等人报告了大规模医患对话数据集"MedDialog"(包括英文和中文),但该数据集未关联患者的临床协变量,也未包含医生的详细特征。此外,护士与患者之间的对话数据情况更为严峻。
为解决这些问题,利用大型语言模型(LLMs)进行合成生成提供了一条实用途径,可基于结构化表格上下文生成多语言对话数据,填补真实数据不可用或无法共享的空白。
该数据集可能具有多种潜在应用,如护士培训的教育环境、未来关于护理文档方法的研究,以及包括生成式人工智能在内的人工智能训练。在本科护理教育中,师资短缺、有限的临床时间/实习机会以及患者权利和隐私限制导致患者接触减少和教育障碍。国家护理委员会的一项大规模随机研究表明,用模拟替代部分临床时间可以实现同等的教育成果,这强调了在直接临床机会有限时,高质量、基于场景的学习材料的重要性。包含患者背景变量、护士特征以及多场景每日护患对话的数据集,对临床实践记录、护理沟通练习和形成性评估具有潜在教育价值。
此外,护理文档本身仍存在多样性。先前的综述文章强调了通过公认护理术语和结构化电子记录进行标准化的持续努力,同时指出不同环境中在完整性、结构和遵守推荐实践方面的差异。与患者协变量和护理过程相关的合成生成对话数据集可以支持对文档格式、内容框架和质量指标的受控实验,随着研究的不断发展。
最后,使用生成式人工智能创建临床记录和对话正在迅速扩展。多项研究表明,合成临床文本在数据稀缺情况下可以共享,并且对训练特定任务的临床模型很有用。同时,用户在重用生成内容训练其他模型前,必须审查模型提供商的使用条款。例如,OpenAI的服务条款禁止"开发与OpenAI竞争的模型"。
方法
本数据通过五个过程生成:1)生成日本脑梗死患者背景数据,2)生成护士特征数据,3)生成患者治疗结果数据,4)从生成的数据中生成患者-护士配对,5)生成配对中的患者与护士之间的对话。本研究仅使用完全合成的数据生成,以再现流行病学统计分布,不涉及任何真实个体或个人身份信息。由于未收集或分析任何人受试者数据,因此不需要伦理批准和知情同意。
1) 生成日本脑梗死患者背景数据(01_patient_bg.py)
患者背景数据根据日本卒中数据银行报告2024公布的统计数据进行调整,以匹配目标外围分布,生成n=10,000的合成队列。首先,生成性别和年龄以匹配目标统计数据的分布形态。对于男性,使用截断正态分布(中位数75,四分位距IQR 15)表示18-99岁年龄段。对于女性,通过数值调整Beta分布的中位数/IQR以匹配,并线性变换以适应年龄范围。
接下来,对于NIHSS严重程度指数,我们构建了一个基于年龄和性别的logit线性预测器。通过二分搜索调整阈值(τ1, τ2),使整个数据集满足P(NIHSS≤5)和P(NIHSS≤9)匹配预设比率。轻度病例(≤5)的0-5分分布使用最大残差法分配,调整以满足Q1=1,Q2=3,Q3=9。
随后,使用逻辑/比例优势近似方法生成入院前改良Rankin量表(pre-mRS)护理级别、病史、吸烟状况、日本昏迷量表(JCS)、入院用药、院内操作/并发症以及NIHSS进展,以年龄、性别和NIHSS作为解释变量。通过校准截距或临界点,使每项指标匹配目标比率。
2) 生成护士特征数据(02_nurse_features.py)
护士的特征因国家、地区和医疗机构而异。因此,本研究为演示目的预定义了一个假设分布,以防止出现极为罕见的类别,并根据此分布生成合成数据。研究对象为在普通病房工作的注册护士(RNs),根据教育背景(文凭/ADN 35%,BSN 55%,MSN+ 10%)、班次模式(日班45%,晚班17%,夜班23%,轮班15%)、工作风格(任务导向25%,以患者为中心35%,按章办事20%,适应性强20%)和沟通风格(支持型35%,指导型20%,信息型25%,激励型20%)进行分类。所有参与者均被赋予基础生命支持(BLS)认证。此外,还独立分配了ACLS(30%)、伤口护理(25%)和肿瘤学认证(15%)。
临床经验年限从对数正态分布中抽样,裁剪至0-40年,四舍五入,然后根据Benner熟练度水平分类(新手<1年,高级初学者<2年,胜任者<5年,熟练者<10年,专家≥10年)。
人格特质(大五人格:开放性O、尽责性C、外向性E、宜人性A、神经质N)从多元正态分布中生成,基于假设的均值、方差和相关性,然后裁剪至0-1范围。此外,连续的人际技能相关指标(共情、自信、耐心、教学和复述使用概率)从具有假设均值和方差的正态分布中生成,然后裁剪至0-1。
作为与沟通相关的衍生变量,通过将风格特定偏差(支持型-10,指导型+5,信息型0,激励型-5)应用于150±20词/分钟的基准,将语速裁剪至110-200词/分钟。动机性访谈(MI)熟练度通过将大五人格特质(特别是开放性、宜人性、尽责性等)权重和轻微噪声映射到0-1尺度来计算。与沟通风格的兼容性也使用风格特定加权(例如,支持型风格强调宜人性和适度外向性;指导型风格强调尽责性和外向性)在0-1尺度上进行评估。倦怠风险根据夜班/轮班工作和新手/高级初学者技能水平各分配1分,总分0分为低,1分为中,2分为高。
3) 生成治疗结果变量(03_patient_outcomes.py)
JCS被标记为0/非零,血糖≥180 mg/dL视为高血糖,Cr≥1.2 mg/dL视为肾功能损害。tPA/血栓切除术(MT)、发病至给药时间以及48小时内康复(早期康复)被用作二元或阈值变量。
接下来,我们构建了严重程度评分作为基线严重程度指标。严重程度评分计算为年龄、NIHSS、JCS标记、心房颤动、高血压、糖尿病、既往卒中、高血糖、肾功能损害和入院前mRS的加权线性组合,治疗相关保护因素(tPA、MT、发病至治疗<90分钟、早期康复)以负权重加入(数值越高表示预后越差)。基于此严重程度评分,使用逻辑函数计算院内并发症(院内死亡、肺炎、症状性颅内出血sICH、深静脉血栓DVT、尿路感染UTI)的发生概率,并通过伯努利抽样确定是否发生。仅对sICH,考虑tPA/MT、高血糖和收缩压≥180 mmHg,设定概率上限以防止异常高。
住院时长(LOS)使用负二项分布建模,期望值由exp(线性预测器)给出。线性预测器包括S和每种并发症(增加方向)、tPA/MT/早期康复(减少方向),最小值四舍五入为4天。出院目的地使用多值logit建模,选项为:回家/康复医院/护理机构/急性转院。基于S、年龄、长期住院(>21天)以及肺炎或sICH的存在计算log odds。从归一化概率中抽取一个选项。如果发生院内死亡,出院目的地被覆盖为"死亡"。
出院mRS评分被创建为一个潜在连续评分,包括S和并发症(肺炎、sICH、DVT、UTI)、tPA/MT、早期康复以及入院前mRS。添加高斯噪声后,根据预设阈值(临界点)映射到0-6的有序类别(如发生死亡则覆盖为6)。30天再入院概率使用logistic回归估计,解释变量包括年龄≥80岁、任何院内并发症、出院目的地非家以及长期住院(>21天),并通过随机分配指定0/1值。90天mRS通过确定相对于出院mRS的改善程度来计算(tPA/MT/早期康复带来改善,严重程度评分或并发症+噪声导致恶化)。如果计算值低于或超过预设阈值,则分别分配-1/+1步变化;否则分配0步。然后将其裁剪至0-6范围(如发生死亡则固定为6)。
4) 创建患者-护士配对数据集(04_pair_patients_nurses.py)
护士特征仅限于普通病房的注册护士,他们能同时照顾的患者数量根据Benner模型的熟练度水平确定:新手:3,高级初学者:4,胜任者:5,熟练者:6,专家:7。
以护士为导向的护理质量评分定义如下。标准化护理经验年限通过将经验年限上限设为20并除以20,定义在0-1之间,而Benner加分点为"熟练者"/"专家"分配1.0,其他所有级别分配0.5。
护理质量评分 = 0.35× MI熟练度 + 0.25 × 沟通风格一致性 + 0.20 × 标准化护理经验年限 + 0.20 × Benner评分
我们为每位患者分配了三个独立于实际数据的潜在参数作为特征:(i) 初始严重程度,(ii) 社会障碍,(iii) 恢复潜力。这些参数从beta或正态分布中抽样为随机数,并在0至1范围内处理。这表达了分配时患者群体的多样性。
对于每位患者,选择两名工作人员:一名主要和一名次要。选择遵循简单的负载均衡方法:(i) 工作人员按负载比率(当前负载除以容量)降序排名,(ii) 如果负载比率相等,则使用资历作为决胜条件。然后从该列表顶部选择工作人员。分配后,主要护理者的负载增加两个病例,次要护理者的负载增加一个病例。这确保了负载分配在后续患者分配中继续进行。
最后,我们为每个患者ID创建了一行,包含以下内容:主要和次要护士ID、每位护士的经验年限、Benner水平和护理质量评分;患者的潜在参数;以及(如果输入中可用)住院时长和结果。
5) 生成护患对话数据(05_generate_dialogues_EN.py/05_generate_dialogues_ZH-CN.py/05_generate_dialogues_JP.py)
在本研究中,我们使用了一个脚本,自动为每位患者生成七次每日患者-护士互动。通过向大型语言模型(LLM)发出每日指令进行生成,输入包括:(i) 基础提示模板,以及(ii) 患者与其指定护士之间的对应表(配对信息)。
生成提示由两条消息组成:系统和用户。在用户方面,每天的七个场景(起床后/早餐后/午餐前/午餐后/晚餐前/睡前/夜间巡视)是固定的。每个场景中的第一句话(护士的固定短语)被明确指定。每个场景设定为10-14轮,由护士发起,并延续前一场景的上下文。变量参数包括patient_id、day、primary_nurse_id以及基于护理弧线的当天重点和事件。以患者_id="P001"、day=3、primary_nurse_id="N123"、focus="稳定和调整离床/疼痛/焦虑"、events=None为例,提供给LLM的实际消息输入如Textbox1所示。然而,对于输出期的最后一天,根据出院、转院或终末期护理等事件,设置了添加特殊最后一天指令(如安全指导、倾听担忧或平静对话)的规范。
此外,我们为LLM输入创建了三种提示变体——日语、英语和中文,并确认输出生成每种语言的对话。
Textbox 1. 生成对话的样本提示(英文版)
[用户]
您被分配了一个患者-护士每日对话任务。为指定日期生成一次性七个场景。
输出必须仅为JSON。顶层模式:
{"day": 数字, "scenes": [ {"id": 字符串, "conversation": [ {"role":"Nurse","text":"..."},
{"role":"Patient","text":"..."} ... ]}, ... ] }
对话规则(适用于每个场景):
- 每个场景10-14次对话,以护士开始。
- 第一句护士的话必须精确使用该场景的固定开场白。
- 避免机械重复;延续前一场景的叙述。
- 语言:所有自然语言仅限英语(JSON键/ID可以是英文)。
任务上下文(本请求固定):
- patient_id: P001
- day: 3
- primary_nurse_id: N123
- 今日重点:稳定和调整离床/疼痛/焦虑
- 今日事件:无
要生成的七个场景(含分配、时间和固定开场白):
- wake (起床时) — 时间=06:30, 分配=主要
固定护士:"早上好。睡得好吗?今天早上感觉如何?"
- post_breakfast (早餐后) — 时间=08:45, 分配=主要
固定护士:"早餐后感觉如何?餐食好吗?"
- pre_lunch (午餐前) — 时间=11:30, 分配=主要
固定护士:"我来在午餐前检查一下。今天上午病情有什么变化吗?"
- post_lunch (午餐后) — 时间=13:30, 分配=主要
固定护士:"我来在午餐后检查。餐食好吗?"
- pre_dinner (晚餐前) — 时间=17:30, 分配=主要
固定护士:"这是晚餐前的巡视。今天下午病情有什么变化吗?"
- lights_out (准备睡觉) — 时间=21:00, 分配=次要
固定护士:"晚上好。在熄灯前我来检查一下。有什么变化吗?"
- night (夜间巡视) — 时间=23:30, 分配=次要
固定护士:"打扰了,这是夜间巡视。睡得好吗?"
提醒: 仅输出JSON并使用上述模式;不要包含解释或Markdown。
作为数据输出方法,从LLM的响应中提取场景,并保存为JSON Lines(.jsonl)文件,每行一个场景,连同每个场景的ID、标签、分配类别、时间和指定的护士ID,按患者和每天组织。该设计跳过已生成最终日响应的患者。此外,为提高生成大样本量时的效率,使用线程池并行处理多个患者。设置了每分钟请求数(RPM)上限,以调节API调用间隔。生成式AI模型名称、并行级别、RPM、样本数量、随机种子等可通过命令行参数指定。
数据记录
我们在[三语(英/中/日)脑梗死患者-护士床边对话合成数据集及其元数据](DOI: 10.5281/zenodo.17518507)处存入了五个主要记录。数据集生成工作流程概览见图1。
- patient_bg.csv — 合成患者背景(人口统计学、NIHSS、入院前mRS等)。
- nurse_features.csv — 合成护士属性(背景、大五人格、沟通特征)。
- patients_df.csv — 合成院内结果和出院指标。
- patient_nurse_pairs.csv — 患者-护士配对,含潜在参数和护理质量评分。
- 对话JSONL文件(英/中/日)— 每位患者每天7个场景的对话(patient_id, day, scene, conversation等)。
CSV文件为UTF-8编码,逗号分隔;缺失值:NA(或空白)。时间除非另有说明,否则为亚洲/东京时区。类别词汇在数据字典中列出。
数据字典随存入提供机器可读的代码本(codebook.csv)。
版本控制和可重现性发布v1.0(2025-11-DD),使用固定随机种子(seed=42)生成。README.md中包含重新生成说明。
访问、许可和引用所有记录均可在DOI: 10.5281/zenodo.17518507下获取,许可为MIT/CC4.0。在参考文献列表中引用数据集,并在数据记录部分将个别记录作为编号数据引用。
技术验证
所有数据均为完全合成;不包括任何真实患者或医院信息。我们从三个轴向验证了发布内容——分布对齐/范围完整性、跨字段逻辑以及可重现性。
分布对齐与范围完整性患者背景变量生成以匹配现有的日本流行病学数据,确认分布和代表性值近似(表1)。这些变量的定义在codebook.csv中描述,我们检查了生成数据与codebook.csv之间的一致性。此外,计算了所有变量的描述性统计,如均值、标准差、四分位数、最大值和最小值,以检查是否存在无效值。每日对话JSONL文件被验证为每行一个有效的JSON对象,包含所需列,确保没有输出指定语言(英/中/日)以外的其他语言,且没有混合多种语言。
表1. 生成变量的描述性统计与目标现有统计。
跨逻辑检查我们尽可能验证了变量之间规则的一致性。例如,如果出院目的地是死亡,则出院时的改良Rankin量表变量必须设置为6。此外,由于患者结果是基于NIHSS严重程度生成的,我们也确认患者严重程度与治疗结果之间维持了一致的相关性。
可重现性在变量生成过程中,我们固定随机种子(seed=42)以确保可重现性。对话生成取决于模型API,是非确定性的;为确保结果可重现,生成的JSONL文件与脚本一起存档。
隐私与安全该数据集是合成的,不含任何个人身份信息。标识符是人工的,不可链接。
数据可用性
所有生成的数据均可在线获取:
所有数据记录均存放在仓库:三语(英/中/日)脑梗死患者-护士床边对话合成数据集及其元数据,DOI: 10.5281/zenodo.17518507。存入内容包括:
- patient_bg.csv(合成患者背景),
- nurse_features.csv(合成护士属性),
- patient_df.csv(院内结果和随访),
- patient_nurse_pairs.csv(患者-护士配对,含潜在参数和护理质量评分),
- dialogs_run/.../*.jsonl(每位患者每日7个场景的对话文件)。
变量定义(类型、单位、词汇表、来源、推导和示例)在codebook.csv中提供。除非另有说明,数据在CC BY 4.0下发布。
代码可用性
所有生成脚本在Zendo [doi: 10.5281/zenodo.17500646]下公开可用,标签为v1.0。环境目标为Python 3.10+,主要依赖项:numpy、pandas、scipy和openai(仅用于对话生成)。最小重现步骤:
1) 生成脑梗死患者特征变量
python 01_patient_bg.py --n 10000 --seed 42 --out data/patient_bg.csv
2) 生成护士特征变量
python 02_nurse_features.py --n-nurses 120 --seed 42 --output data/nurse_features.csv
3) 生成患者治疗结果
python 03_patient_outcomes.py --input data/synth.csv --output data/patients_df.csv --seed 42
4) 生成患者-护士配对数据
python 04_pair_patients_nurses.py --patients data/patients_df.csv --nurses data/nurse_features.csv --output data/patient_nurse_pairs.csv --seed 42
5) 生成对话数据
$env:OPENAI_API_KEY = "xxxxx" (请将xxxxx替换为您的API密钥)
<英文版>
python 05_generate_dialogues_EN.py --step1-path data/step1_messages_v5.json --index-csv data/patient_nurse_pairs_enriched.csv --out-dir data/dialogs_run --model gpt-5-mini --workers 8 --rpm 0 --sample-n 10 --seed 42
<简体中文版>
python 05_generate_dialogues_CN.py --step1-path data/step1_messages_v5.json --index-csv data/patient_nurse_pairs_enriched.csv --out-dir data/dialogs_run --model gpt-5-mini --workers 8 --rpm 0 --sample-n 10 --seed 42
<日文版>
python 05_generate_dialogues_JP.py --step1-path data/step1_messages_v5.json --index-csv data/patient_nurse_pairs_enriched.csv --out-dir data/dialogs_run --model gpt-5-mini --workers 8 --rpm 0 --sample-n 10 --seed 42
我们提供requirements.txt以支持精确重建环境。
作者贡献
KT负责概念化、方法论、软件、资金获取、撰写(主导);SY负责软件和监督;TI负责验证和撰写(支持);SO负责验证和撰写(支持);EK负责验证和撰写(支持);AH负责验证和撰写(支持)。
竞争利益
作者声明无竞争利益。
致谢
本研究得到日本学术振兴会(JSPS KAKENHI 25K13935)的支持。资助方在研究设计、数据收集、分析、解释或报告撰写中未发挥作用。
参考文献
- Liu, Z. et al. Fast Prototyping a Dialogue Comprehension System for Nurse–Patient Conversations on Symptom Monitoring. Preprint at doi:10.48550/arXiv.1903.03530 (2019).
- Wang, Y., Donovan, H.A.S., Hassan, S., Alikhani, Mailhe. MedNgage: A Dataset for Understanding Engagement in Patient-Nurse Conversations. Preprint at doi:10.48550/arXiv.2305.19981 (2023).
- He, X., et al. MedDialog: Two Large-scale Medical Dialogue Datasets. Preprint at doi:10.48550/arXiv.2004.03329 (2020).
- American Association of Colleges of Nursing. Nursing Faculty Shortage Fact Sheet. (2024).
- Hayden, J. K., Smiley, R. A., Alexander, M., Kardong-Edgren, S., & Jeffries, P. R. The NCSBN national simulation study: A longitudinal, randomized, controlled study replacing clinical hours with simulation in prelicensure nursing education. J. Nurs. Regul., 5(2), S3–S40. (2014).
- Wang, N., Hailey, D., & Yu, P. Quality of nursing documentation and approaches to its evaluation: a mixed-method systematic review. J. Adv. Nurs., 67(9), 1858–1875. (2011).
- Monsen, K. A., Heermann Langford, L., Bakken, S., & Dunn Lopez, K. Standardized nursing terminologies come of age: advancing quality of care, population health, and health equity across the care continuum. J. Am. Med. Inform. Assoc., 30(11), 1757–1759. (2023).
- Bertocchi, L., et al. Impact of standardized nursing terminologies on patient and organizational outcomes: A systematic review and meta-analysis. J. Nurs. Scholarsh., 55(6), 1126–1153. (2023).
- Kweon S., et al. Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes. Archived at doi:10.48550/arXiv.2309.00237 (2024).
- OpenAI. Terms of Use. Section: "Using our Services." (2024).
- Japan Stroke Data Bank. Japan Stroke Data Bank Report 2024. (2024).
【全文结束】

