Credit: Pixabay/CC0 公共领域
麻省总医院布里格姆医疗系统研究团队已开发出全球首批完全自主人工智能(AI)系统之一,该系统能够利用常规临床文档筛查认知障碍。该系统在部署后无需人工干预或提示,在真实世界验证测试中特异性达到98%。研究成果已发表在《npj Digital Medicine》期刊上。
与论文同步发布,研究团队推出了Pythia这一开源工具,使任何医疗系统或研究机构都能为其自身AI筛查应用部署自主提示优化。
“我们没有构建单一AI模型——而是打造了一支数字临床团队,”通讯作者、麻省总医院临床增强智能(CLAI)研究小组主任兼医学副教授侯赛因·埃斯蒂里博士表示,“该AI系统包含五名专业代理,它们相互批评并优化推理过程,正如临床医生在病例会议中所做的那样。”
认知障碍检测的挑战
认知障碍在常规临床护理中仍被严重低估,传统筛查工具和认知测试资源消耗巨大且患者难以获取。然而,早期检测日益关键,尤其随着近期阿尔茨海默病疗法获批,这些疗法在疾病早期给药时效果最佳。
“当许多患者获得正式诊断时,最佳治疗窗口可能已经关闭,”共同主要研究作者、麻省总医院布里格姆医疗系统神经病学系人口健康与医疗智能中心主任莉迪亚·穆拉医学博士、哲学博士、公共卫生硕士表示。
AI系统工作原理
为更好捕捉高风险患者,麻省总医院布里格姆团队开发了基于开源权重大型语言模型的AI系统,可部署于医院信息技术基础设施内。该系统采用五名代理,各司其职,通过协作进行临床判断并优化以纠正错误、提高灵敏度和特异性。
这些代理在迭代循环中自主运行,通过结构化协作优化检测能力,直至达到性能目标或系统判定收敛。患者数据不会传输至外部服务器或基于云的AI服务。
研究分析了麻省总医院布里格姆200名匿名患者的3300余份临床笔记。通过分析常规医疗访问产生的临床笔记,这一创新系统能将日常文档转化为筛查认知问题的机会,帮助识别可能需要正式评估的患者。
“临床笔记中隐藏着认知衰退的细微线索,忙碌的临床医生无法系统性挖掘,”穆拉表示,“该系统实现了规模化监听。”
系统性能与局限性
当AI系统与人工评审者意见相左时,独立专家会重新评估每个案例。在分歧案例中,专家58%的时间验证了AI的推理——这意味着系统常基于笔记证据做出合理临床判断,而初始人工评审却未能发现。
“我们本预期发现AI错误,却常看到AI基于笔记证据做出可辩护的判断,”埃斯蒂里表示。
对AI错误案例的分析揭示了系统性模式:文档局限性(认知问题仅出现在问题列表而无支持性叙述)和领域知识缺口(系统未能识别特定临床指标)。该系统在全面临床叙述中表现出色,但在缺乏上下文的孤立数据上表现挣扎。
尽管系统在平衡测试中灵敏度达91%,但在真实世界条件(阳性病例占比33%)下灵敏度降至62%,而特异性仍保持高位98%。研究人员报告了这些校准挑战,以提供透明度并指导未来提升临床可靠性的努力。
“我们正在公开发布AI挣扎的确切领域,”埃斯蒂里表示,“若想让临床AI获得信任,该领域必须停止隐藏这些校准挑战。”
出版详情季子提等人,《利用大型语言模型进行认知问题临床检测的自主代理工作流》,《npj Digital Medicine》(2026)。DOI: 10.1038/s41746-025-02324-4
访问Pythia工具
期刊信息: npj Digital Medicine
关键医学概念认知功能障碍 大型语言模型
临床类别神经病学 健康老龄化 常见疾病与预防
由麻省总医院布里格姆医疗系统提供
引用: 自主人工智能代理开发用于检测认知能力下降早期迹象(2026年1月15日)
【全文结束】

