最近,《JAMA Network Open》发表的一项研究探讨了大型语言模型(LLM)生成急诊医学(EM)交接记录的潜力。这些记录对于患者护理过渡至关重要,研究评估了其准确性、安全性和实用性。该研究旨在探讨将人工智能整合到医疗文档中能否减轻医生的工作负担而不危及患者结果。研究在纽约的一家主要医院进行,分析了超过1,600例急诊患者入院的情况。
虽然交接记录在沟通中起着重要作用,但也容易出现可能导致严重后果的错误。标准化这些流程的努力已取得进展,但急诊医学仍面临特别挑战。有限的时间、复杂的医疗状况和诊断不确定性常常导致不一致。尽管电子健康记录(EHR)工具提供了一些缓解,但急诊环境仍然是创新的沃土。
LLM因其处理和总结大量数据的能力而显示出巨大潜力。然而,医疗保健和医学各领域对其可靠性和潜在不准确性的担忧依然存在。研究通过双管齐下的方法解决了这些担忧:微调的LLM结合基于规则的启发式方法。这种方法确保笔记遵循既定报告标准,同时整合必要的临床细节。
生成交接记录的模板模仿了传统笔记。关键的患者数据,如实验室结果和生命体征,与患者的病史和潜在诊断的叙述摘要一起包括在内。研究使用了两个LLM,即RoBERTa和Llama-2,用于任务的不同方面,包括识别相关内容和撰写摘要。通过在模型微调过程中排除种族信息,研究人员希望最小化生成输出中的偏见。
自动度量和手动临床评估构成了研究分析的基础。ROUGE和BERTScore等工具评估了词汇和语义准确性,而临床医生则审查了一部分生成的笔记,以评估其完整性、清晰度和安全性。在1,600个患者病例中,平均年龄为59.8岁,女性占样本的52%。自动评估显示,LLM生成的摘要在细节和与源笔记的一致性方面通常超过了医生撰写的笔记。
例如,LLM生成的笔记的ROUGE-2得分显著高于医生撰写的笔记,反映了更好的文本覆盖范围和精确度。同样,用于识别不一致性的SCALE方法发现AI生成的笔记中的问题较少。然而,临床评估描绘了一幅更复杂的图景。虽然LLM生成的摘要总体上是可以接受的,但在可读性和上下文相关性方面仍不及医生撰写的笔记。在大约8-9%的病例中发现了潜在的安全风险,包括信息不完整和逻辑缺陷,但这些问题均未被视为危及生命的。
研究还检查了幻觉内容的情况,这是AI系统的已知局限性。临床医生之间的评分者可靠性评估表明,在诸如笔记正确性和实用性等标准上达成了一致,但可读性评分的一致性较低。
尽管存在这些限制,研究结果揭示了LLM在医疗文档方面的潜力。通过自动化常规记笔记的方面,这些系统可以让医生更加专注于直接患者护理。研究团队强调了持续改进以维持这些标准的必要性。
(全文结束)

