由美国马萨诸塞州总 Brigham 医疗系统的团队开发,该系统部署后无需人工干预或提示,在真实世界验证测试中达到98%的特异性。研究结果发表在《npj 数字医学》期刊上。
该团队同时发布开源工具Pythia,使任何医疗系统或研究机构都能为其AI筛查应用部署自主提示优化。
"我们没有构建单一的AI模型——我们构建了一个数字临床团队,"通讯作者、马萨诸塞州总医院临床增强智能(CLAI)研究组主任兼医学副教授侯赛因·埃斯蒂里表示,"这个AI系统包含五个专业代理,它们相互批评并优化推理过程,就像临床医生在病例讨论会上所做的那样。"
认知障碍在常规临床护理中长期存在诊断不足问题,传统筛查工具和认知测试实施过程资源密集且患者获取困难。然而早期检测日益关键,特别是随着近期批准的阿尔茨海默病疗法在早期使用时效果最佳。
"当许多患者获得正式诊断时,最佳治疗窗口可能已经关闭,"共同主要作者、马萨诸塞州总 Brigham MGB神经病学部人口健康和医疗保健智能中心主任莉迪亚·穆拉指出。
为更有效识别高风险患者,研究团队开发出基于开源大语言模型的AI系统,可部署于医院内部信息技术基础设施。该系统采用五个角色明确的代理协同工作,通过迭代优化临床决策以减少错误,提升检测敏感性与特异性。
这些代理在迭代循环中自主运行,以结构化方式协作改进检测性能,直至达成目标或系统收敛。患者数据全程保留在本地,不传输至外部服务器或云服务。
研究分析了马萨诸塞州总 Brigham 200名匿名患者的3,300余份临床记录。通过解析常规诊疗记录,该系统将日常文档转化为认知障碍筛查机会,标记需正式评估的患者。
"临床记录中隐含着忙碌医生难以系统捕捉的认知衰退迹象,"穆拉解释道,"本系统实现了规模化监测。"
当AI系统与人工评审结果冲突时,独立专家介入复核。在分歧案例中,专家有58%的案例支持AI的推理逻辑。
"我们原预期发现AI错误,实际却发现其常基于记录证据做出合理判断,"埃斯蒂里表示。
对AI误判案例的分析揭示两大规律:文档缺失问题(认知关切仅列于问题清单而缺乏叙述支撑)和领域知识缺口(某些临床指标未被识别)。系统在完整临床叙事中表现优异,但对缺乏上下文的孤立数据处理困难。
尽管平衡测试中系统敏感性达91%,但在真实世界条件(阳性病例占比33%)下敏感性降至62%,特异性仍维持98%高位。研究团队主动报告这些校准挑战以提升透明度,指导未来临床可靠性改进工作。
"我们正在准确公布AI的薄弱环节,"埃斯蒂里强调,"若要建立临床AI的信任,行业必须停止掩盖这些校准挑战。"
【全文结束】

