麻省总医院 Brigham 医疗系统
麻省总医院 Brigham 医疗系统的研究团队已开发出首批完全自主的人工智能(AI)系统之一,该系统能够利用常规临床文档筛查认知障碍。该系统在部署后无需人工干预或提示,在真实世界验证测试中达到98%的特异性。研究结果发表在《npj 数字医学》期刊上。
与论文同时发布,该团队推出了开源工具皮媞亚(Pythia),使任何医疗系统或研究机构都能为其自身的AI筛查应用部署自主提示优化。
“我们没有构建单一的AI模型——我们构建了一个数字临床团队,”通讯作者、麻省总医院临床增强智能(CLAI)研究小组主任兼医学副教授、麻省总医院 Brigham 医疗系统创始成员侯赛因·埃斯蒂里博士表示,“这个AI系统包括五个专门的智能体,它们相互批评并完善推理,就像临床医生在病例讨论会上那样。”
认知障碍在常规临床护理中仍然显著漏诊,而传统筛查工具和认知测试管理起来资源密集且患者难以获取。然而,早期检测变得越来越关键,特别是随着阿尔茨海默病疗法的最近获批,这些疗法在疾病早期给药时最有效。
“当许多患者获得正式诊断时,最佳治疗窗口可能已经关闭,”麻省总医院 Brigham 医疗系统神经病学部人口健康和医疗保健智能中心主任、共同首席研究作者莉迪亚·穆拉医学博士、哲学博士、公共卫生硕士表示。
为了更好地捕捉高风险患者,麻省总医院 Brigham 医疗系统团队开发了一个AI系统,该系统运行在可在医院信息技术基础设施内部本地部署的开源大型语言模型上。它采用五个各司其职的智能体,协同工作做出临床判断并完善它们以解决错误,提高灵敏度和特异性。
这些智能体在迭代循环中自主运行,通过结构化协作完善其检测能力,直到达到性能目标或系统确定其已收敛。没有患者数据传输到外部服务器或基于云的AI服务。
该研究分析了麻省总医院 Brigham 医疗系统200名匿名患者的3300多份临床记录。通过分析常规医疗访问期间产生的临床记录,这个创新系统可以将日常文档转化为筛查认知问题的机会,帮助识别可能需要正式评估的患者。
“临床记录中包含认知衰退的细微线索,忙碌的临床医生无法系统性地发掘,”穆拉说,“这个系统能够大规模监听。”
当AI系统与人工评审员意见不同时,一位独立专家重新评估了每个案例。在意见分歧的案例中,专家在58%的情况下验证了AI的推理——这意味着该系统经常做出合理的临床判断,而初始人工评审却忽略了这些判断。
“我们原以为会发现AI错误。相反,我们经常发现AI是基于记录中的证据做出可辩护的判断,”埃斯蒂里说。
对AI不正确案例的分析揭示了系统性模式:文档限制,即认知问题仅出现在问题列表中而没有支持性叙述;以及领域知识缺口,即系统未能识别某些临床指标。该系统在全面的临床叙述中表现出色,但在缺乏上下文的孤立数据上表现挣扎。
尽管该系统在平衡测试中达到91%的灵敏度,但在真实世界条件下(阳性病例患病率为33%),其灵敏度下降到62%,而特异性仍保持在98%的高水平。研究人员报告了这些校准挑战,以提供透明度并指导未来改善临床可靠性的努力。
“我们正在精确发布AI挣扎的领域,”埃斯蒂里说,“如果我们希望临床AI被信任,该领域需要停止隐藏这些校准挑战。”
作者署名:除埃斯蒂里和穆拉外,麻省总医院 Brigham 医疗系统和哈佛医学院的共同作者包括田佳子(Jiazi Tian)、佩德兰·法德(Pedram Fard)、卡梅伦·卡甘(Cameron Cagan)、内古因·雷扎伊(Neguine Rezaii)、雷贝卡·布斯塔曼特·罗查(Rebeka Bustamante Rocha)、王丽琴(Liqin Wang)、瓦尔德里·穆拉·朱尼尔(Valdery Moura Junior)、黛博拉·布莱克(Deborah Blacker)、詹妮弗·S·哈斯(Jennifer S. Haas)、奇拉格·帕特尔(Chirag Patel)和肖恩·N·墨菲(Shawn N. Murphy)。
披露:作者声明无利益冲突。
资助:本研究由美国国立卫生研究院(NIH)资助:国家老龄化研究所(资助号RF1AG074372、R01AG074372、R01AG082693)和国家过敏与传染病研究所(R01AI165535)。
引用论文:田等,“使用大型语言模型进行认知问题临床检测的自主智能体工作流程”,《npj 数字医学》,DOI: 10.1038/s41746-025-02324-4。
【全文结束】

