一项最新研究发表在《JAMA Network Open》上,研究人员开发并评估了大型语言模型(LLM)生成的急诊医学(EM)交接记录的准确性、安全性和实用性,旨在减轻医生记录负担而不影响患者安全。
医疗保健中的交接重要性
交接是医疗保健中关键的沟通环节,也是已知的医疗错误来源。因此,包括联合委员会和研究生医学教育认证委员会(ACGME)在内的多个组织倡导标准化流程以提高安全性。急诊到住院部(EM-to-IP)的交接面临独特的挑战,如医疗复杂性、时间限制和诊断不确定性;然而,这些交接过程仍然不够标准化且实施不一致。电子健康记录(EHR)工具试图克服这些限制,但在急诊环境中仍需进一步探索。
大型语言模型(LLM)作为简化临床记录的潜在解决方案已崭露头角。然而,关于事实不一致性的担忧要求进一步研究,以确保关键工作流程中的安全性和可靠性。
研究方法
本研究在纽约市的一家拥有840张床位的城市学术四级护理医院进行。分析了2023年4月至9月期间导致急性住院的1,600例急诊患者就诊数据。由于更新的EM-to-IP交接系统的实施,仅包括2023年4月之后的就诊记录。回顾性数据在豁免知情同意的情况下使用,以确保对患者的最小风险。交接记录使用经过微调的LLM和基于规则的启发式方法生成,同时遵循标准化报告指南。
交接记录模板紧密模仿当前的手动结构,整合了实验室测试和生命体征等基于规则的元素,以及现病史和鉴别诊断等LLM生成的组件。信息学专家和急诊科医生对数据进行了微调,以提高质量,同时排除种族属性以避免偏见。研究中使用了两种LLM:Robustly Optimized Bidirectional Encoder Representations from Transformers Approach(RoBERTa)和Large Language Model Meta AI(Llama-2),分别用于显著内容选择和抽象总结。数据处理涉及启发式优先级和显著性建模,以解决模型的潜在局限性。
研究结果
在分析的1,600例患者病例中,平均年龄为59.8岁,标准差为18.9岁,52%的患者为女性。自动评估指标显示,LLM生成的摘要在多个方面优于医生撰写的摘要。
ROUGE-2分数分别为0.322和0.088,LLM生成的摘要显著高于医生摘要。同样,BERT精度分数分别为0.859和0.796,LLM生成的摘要也更高。相比之下,大规模不一致性评估(SCALE)生成的分数分别为0.691和0.456。这些结果表明,LLM生成的摘要在词汇相似性、源笔记保真度和详细内容方面优于人工撰写的摘要。
在临床评估中,LLM生成的摘要质量与医生撰写的摘要相当,但在几个维度上略逊一筹。在1到5的Likert量表上,LLM生成的摘要在有用性、完整性、策划、可读性、正确性和患者安全方面的得分较低。尽管存在这些差异,自动摘要总体上被认为适用于临床使用,且未发现危及患者安全的问题。
在评估最坏情况时,临床医生确定了潜在的二级安全风险,包括LLM生成摘要中的不完整性和逻辑错误,分别为8.7%和7.3%,而医生撰写的摘要未出现这些风险。LLM生成的摘要中出现了五次幻觉,均获得了4到5的安全评分,表明轻微至可忽略的安全风险。总体而言,LLM生成的记录错误率较高,为9.6%,而医生撰写的记录错误率为2%,但这些不准确很少涉及重大安全问题。
通过计算组内相关系数(ICC)来评估评分者间的一致性。ICC在完整性、策划、正确性和有用性方面的评分分别为0.79、0.70、0.76和0.74,表明三位专家评分者之间有良好的一致性。可读性达到了公平的可靠性,ICC为0.59。
结论
本研究成功地使用经过微调的LLM和基于规则的方法在一个用户开发的模板中生成了急诊到住院部的交接记录。传统的自动化评估显示LLM性能优越。然而,手动临床评估显示,虽然大多数LLM生成的记录在4到5分之间取得了令人满意的质量评分,但总体上仍不如医生撰写的记录。识别出的错误,包括不完整性和逻辑错误,偶尔会带来中等安全风险,其中不到10%可能引起重大问题,而医生撰写的记录则不存在这些问题。
期刊参考文献:
- Hartman, V., Zhang, X., Poddar, R., et al. (2024). Developing and Evaluating Large Language ModelaGenerated Emergency Medicine Handoff Notes. JAMA Network Open. doi:10.1001/jamanetworkopen.2024.48723
(全文结束)

