发表日期:2026年1月29日
在反映真实世界患病率的独立数据集上,AI驱动的代理工作流灵敏度从平衡优化数据集的0.91降至0.62。
HealthDay新闻——根据1月7日在线发表于《npj数字医学》杂志的一项研究,一种完全自主的人工智能(AI)模型可从临床笔记中筛查认知障碍。
来自波士顿麻省总医院的田佳子(Jiazi Tian)及其同事开发了两种从临床笔记识别认知问题的大型语言模型工作流:一种是专家驱动工作流,通过三个大型语言模型进行迭代提示优化;另一种是自主代理工作流,协调五个专门代理执行提示优化。该模型在平衡优化数据集上完成优化,并在反映真实世界患病率的独立数据集上通过验证。
研究人员发现,相较于专家驱动工作流,代理工作流实现了相当的验证性能(F1值:0.74对比0.81)和更优的优化结果(0.93对比0.87)。灵敏度从优化数据集的0.91降至独立数据集的0.62,表明患病率变化对泛化能力产生显著影响。在专家重新裁决中,代理工作流在16个假阴性病例中的7例(44%)被认定为临床正确,反映出适当的临床推理逻辑。
共同作者、同属麻省总医院的侯赛因·埃斯蒂里(Hossein Estiri)博士在声明中表示:“我们并未构建单一AI模型——而是打造了一个数字临床团队。该AI系统包含五个专门代理,它们相互批评并完善推理过程,恰如临床医生在病例讨论会上的协作方式。”
【全文结束】

