大型语言模型(LLM)可以衡量初级护理的质量,并标记出需要改进的领域,特别是对于被处方注意缺陷多动障碍(ADHD)药物的儿童,利用存储在临床笔记中的大量信息。
这项研究发表在《儿科学》杂志上,使用的开源LLaMA模型能够评估在开具ADHD药物后副作用监测的密切程度,以及临床医生对实践指南的遵守情况。
“该模型在识别包含副作用询问记录的笔记方面表现出色,”斯坦福大学儿科助理教授Yair Bannett博士表示。
传统的图表审查方法费力且不便于实时改进,Bannett解释道。LLM是一种提供大规模评估护理质量的机会的人工智能,可以及时发现改进目标。
Bannett及其团队选择通过将开源LLaMA模型应用于ADHD护理的一个方面来测试这种新型应用,因为ADHD是一种高度普遍的疾病,通常在初级护理中进行管理。
在一项回顾性研究中,他们查看了11个儿科初级护理诊所中1201名6至11岁儿童的医疗记录。所有儿童至少有一个ADHD诊断,并且至少有两次ADHD药物处方。
两名临床医生审查了119名随机样本参与者的图表,以确定这组患者的501份临床笔记中是否包含监测副作用的记录。
该模型随后在这些笔记中的411份(相当于样本的80%)上进行了训练,剩余的90份笔记保留用于验证模型能否找到这些询问。
研究团队接着将LLM应用于剩余的1189名患者,包括其图表中的15,127份笔记,并对其在363份笔记上的表现进行了“部署测试”。
LLaMA在验证测试集中准确分类包含副作用询问的笔记,敏感性为87.2%,特异性为86.3%,曲线下面积为0.93。
参与者性别或保险状况方面没有模型偏差,无论是否记录了副作用询问,特征基本相似。
电话随访中记录的副作用询问显著少于诊所或远程医疗中的询问,分别为51.9%和73.0%。
在11个初级护理诊所(PCP)中有7个超过一半的ADHD随访是通过电话完成的,但只有两个诊所在电话中常规记录了关于副作用的询问。
“与PCP交谈时,我们了解到只有这两个诊所在接到电话续药请求时有一套询问副作用的工作流程,”Bannett指出。
与非刺激剂处方相比,刺激剂处方后的随访中询问更常见,分别为61.4%和48.5%。总体而言,999名参与者接受了刺激剂药物治疗,54名接受了非刺激剂药物治疗,148名同时接受了两种药物治疗。
Bannett指出,与PCP交谈时,许多医生对非刺激剂管理缺乏信心。
在一篇伴随研究的评论文章中,宾夕法尼亚大学的Robert Grundmeier博士和Kevin Johnson博士称这是一项“令人信服的研究”,展示了LLM在提高护理质量评估方面的潜力。
“将开源LLM应用于基于社区的儿科网络的临床笔记,为监测临床医生在开具ADHD药物后管理副作用指南的依从性提供了可扩展的解决方案,”他们认为。
“这项工作推进了我们对人工智能在自动化和扩展临床实践评估中的作用的理解,克服了传统方法如图表审查的劳动密集型性质等限制。”
(全文结束)

