麻省总医院-布莱根医疗系统开发的系统在验证研究中取得了高准确性,促使该系统作为开源发布以促进进一步研究。
麻省总医院-布莱根医疗系统的一支研究团队开发了首批完全自主的人工智能(AI)系统之一,该系统能够利用常规临床文档进行认知障碍筛查。该系统在部署后无需人工干预或提示,在真实世界的验证测试中达到了98%的特异性。研究结果发表在《npj 数字医学》期刊上。
与论文同时发布的是Pythia,这是一个开源工具,使任何医疗系统或研究机构都能为其自己的AI筛查应用程序部署自主提示优化。
"我们没有构建单一的AI模型——我们构建了一个数字临床团队,"麻省总医院临床增强智能(CLAI)研究小组主任、麻省总医院-布莱根医疗系统的创始成员、医学副教授霍斯sein Estiri博士说,"这个AI系统包括五个专门的智能体,它们相互批评并优化推理,就像临床医生在病例讨论会上所做的那样。"
认知障碍在常规临床护理中仍然被显著低估,而传统的筛查工具和认知测试在实施时资源消耗巨大,且患者难以获取。然而,早期检测变得越来越关键,特别是随着最近批准的阿尔茨海默病疗法在疾病早期使用时最为有效。
麻省总医院-布莱根医疗系统神经病学系人口健康和医疗智能中心主任Lidia Moura医学博士、哲学博士、公共卫生硕士说:"当许多患者获得正式诊断时,最佳治疗窗口可能已经关闭。"
为了更好地识别高风险患者,麻省总医院-布莱根医疗团队开发了一种AI系统,该系统运行在可部署在医院信息技术基础设施内的开源权重大型语言模型上。它采用五个各自承担不同功能的智能体,通过协作进行临床判断并优化结果,以解决错误并提高敏感性和特异性。
这些智能体在迭代循环中自主运行,通过结构化协作不断完善其检测能力,直到达到性能目标或系统确定其已收敛。患者数据不会传输到外部服务器或基于云的AI服务。
该研究分析了麻省总医院-布莱根医疗系统200名匿名患者的3,300多份临床记录。通过分析常规医疗访问期间产生的临床记录,这一创新系统可以将日常文档转化为筛查认知问题的机会,帮助识别可能需要正式评估的患者。
Moura说:"临床记录中包含着忙碌的临床医生无法系统发现的认知衰退'低语'。这个系统能够大规模'聆听'。"
当AI系统与人工评审员意见不同时,一位独立专家重新评估了每个案例。在意见不一致的案例中,专家验证了AI推理的58%——这意味着该系统经常做出合理的临床判断,而这些判断在最初的人员审查中被忽略了。
Estiri说:"我们原本预期会发现AI错误。相反,我们经常发现AI是基于记录中的证据做出可辩护的判断。"
对AI错误案例的分析揭示了系统性模式:文档限制,即认知问题仅出现在问题列表中而没有支持性叙述;以及领域知识差距,即系统未能识别某些临床指标。该系统在全面的临床叙述中表现出色,但在缺乏上下文的孤立数据上表现不佳。
尽管该系统在平衡测试中达到了91%的敏感性,但在真实世界条件下(33%阳性病例的患病率),其敏感性下降到62%,而特异性仍保持在98%的高位。研究人员报告了这些校准挑战,以提供透明度并指导未来提高临床可靠性的努力。
Estiri说:"我们正在准确公布AI遇到困难的领域。如果我们希望临床AI受到信任,该领域需要停止隐藏这些校准挑战。"
【全文结束】

