麻省总医院布里格姆医疗系统的研究团队开发出首批完全自主的人工智能(AI)系统之一,能够利用常规临床文档筛查认知障碍。该系统部署后无需人工干预或提示,在真实世界验证测试中达到了98%的特异性。研究结果发表在《npj数字医学》期刊上。
随着论文发表,研究团队同时发布了Pythia,这是一款开源工具,可使任何医疗系统或研究机构为其自身的AI筛查应用部署自主提示优化。
论文通讯作者、麻省总医院临床增强智能(CLAI)研究组主任兼医学副教授侯赛因·埃斯蒂里博士表示:"我们没有构建单一的AI模型——我们构建了一个数字临床团队。这个AI系统包含五个专业代理,它们相互批判并优化推理过程,就像临床医生在病例讨论会上所做的那样。"
认知障碍在常规临床诊疗中仍存在显著的漏诊问题,而传统筛查工具和认知测试资源消耗大且患者难以获取。然而,早期检测变得日益关键,特别是随着阿尔茨海默病疗法的近期获批,这些疗法在疾病早期使用效果最佳。
研究共同第一作者、麻省总医院布里格姆医疗系统神经内科人口健康与医疗智能中心主任莉迪亚·穆拉医学博士表示:"当许多患者获得正式诊断时,最佳治疗窗口可能已经关闭。"
为更好地识别高风险患者,麻省总医院布里格姆医疗系统团队开发了一套AI系统,该系统基于可在医院信息技术基础设施内部署的开源大语言模型运行。它采用了五个各司其职的代理,通过协作做出临床判断并优化这些判断,以解决错误并提高敏感性和特异性。
这些代理在一个迭代循环中自主运行,通过结构化协作不断完善其检测能力,直到达到性能目标或系统确定已收敛。患者数据不会传输到外部服务器或基于云的AI服务。
该研究分析了麻省总医院布里格姆医疗系统200名匿名患者的3,300多份临床记录。通过分析常规医疗就诊期间产生的临床记录,这一创新系统可以将日常文档转化为筛查认知问题的机会,帮助识别可能需要正式评估的患者。
穆拉表示:"临床记录中包含认知衰退的细微迹象,而忙碌的临床医生无法系统性地发现这些迹象。这个系统能够大规模地'聆听'。"
当AI系统与人工评审员意见不一致时,一位独立专家会重新评估每个案例。在存在分歧的案例中,专家在58%的情况下验证了AI的推理——这意味着该系统经常做出合理的临床判断,而这些判断在初始人工评审中被遗漏了。
我们原本期望发现AI错误。然而,我们经常发现AI是基于记录中的证据做出可辩护的判断。
麻省总医院临床增强智能(CLAI)研究组主任兼医学副教授侯赛因·埃斯蒂里博士
对AI判断错误的案例分析揭示了系统性模式:文档限制导致认知问题仅出现在问题列表中而缺乏支持性叙述,以及领域知识缺口导致系统未能识别某些临床指标。该系统在全面的临床叙述中表现出色,但在缺乏上下文的孤立数据上表现不佳。
尽管该系统在平衡测试中达到了91%的敏感性,但在真实世界条件下(阳性病例占比33%),其敏感性降至62%,而特异性仍保持在98%的高水平。研究人员报告了这些校准挑战,以提供透明度并指导未来改进临床可靠性的努力。
埃斯蒂里表示:"我们正在发表AI遇到困难的精确领域。如果我们希望临床AI获得信任,该领域需要停止隐藏这些校准挑战。"
消息来源:
麻省总医院布里格姆医疗系统
期刊参考:
田J等(2026)利用大语言模型进行认知问题临床检测的自主代理工作流程。《npj数字医学》。DOI: 10.1038/s41746-025-02324-4。
发布于:设备/技术新闻 | 医疗状况新闻 | 医疗保健新闻
【全文结束】

