人工智能在真实世界认知筛查中实现98%特异度
麻省总医院布里格姆医疗系统研究团队开发出首个完全自主的人工智能系统,旨在通过常规临床文档筛查认知障碍。与现有工具不同,该系统部署后无需临床医生输入、手动提示或工作流程调整即可独立运行。
在真实世界验证测试中,人工智能系统通过分析日常医疗记录展现出卓越性能,特异度高达98%。该技术利用标准临床护理中已捕获的信息,为早期认知筛查提供了可扩展且高效的解决方案。研究结果发表在《npj 数字医学》期刊,凸显了该系统变革临床认知障碍检测方式的潜力。
五智能体模型提升准确性和可靠性
为更精准识别高风险患者,麻省总医院布里格姆团队开发了基于开源权重大语言模型的AI系统,可部署在医院信息技术基础设施内。该系统包含五个执行不同功能的智能体,通过协作进行临床判断并优化结果以提升灵敏度和特异度。
这些智能体在迭代循环中自主运行,通过结构化协作持续优化检测能力,直至达到性能目标或系统判定结果收敛。所有患者数据均保留在本地,不传输至外部服务器或云端AI服务。
研究分析了麻省总医院布里格姆系统200名匿名患者的3300多份临床记录。该创新系统将常规诊疗产生的临床记录转化为筛查认知问题的机会,帮助识别可能需要正式评估的患者。
"临床记录中隐藏着认知衰退的细微线索,忙碌的医生难以系统化发现,"该研究共同首席作者、麻省总医院布里格姆神经病学部人口健康与医疗智能中心主任莉迪亚·穆拉医学博士表示,"而该系统能够规模化捕捉这些信号。"
当人工智能系统与人工评审意见相左时,独立专家会对每个案例重新评估。在分歧案例中,专家有58%的时间验证了AI的推理逻辑——这意味着系统常能做出初始人工评审遗漏的合理临床判断。
"我们原以为会发现AI错误,结果却经常看到系统基于记录证据做出了可辩护的判断,"通讯作者、麻省总医院临床增强智能研究组主任侯赛因·埃斯蒂里博士表示。
对AI错误案例的分析揭示出系统性模式:文档局限性导致认知问题仅出现在问题列表中而缺乏叙述支持,以及领域知识缺口使系统未能识别特定临床指标。该系统在全面的临床叙述中表现出色,但在缺乏上下文的孤立数据面前表现不佳。
尽管系统在平衡测试中达到91%的灵敏度,但在真实世界条件(33%阳性病例)下灵敏度降至62%,特异度仍保持98%的高位。研究人员报告这些校准挑战旨在提升透明度,并指导未来改善临床可靠性的工作。
"我们正在公开披露AI面临的困难领域,"埃斯蒂里强调,"若希望临床AI获得信任,该领域必须停止掩盖这些校准挑战。"
该团队随论文发布开源工具Pythia,使任何医疗系统或研究机构都能为其AI筛查应用部署自主提示优化。
"我们打造的不是单一AI模型,而是一支数字临床团队,"埃斯蒂里解释道,"该AI系统包含五个专门智能体,它们相互批判并优化推理过程,如同临床病例讨论会中的医生团队。"
认知障碍在常规临床护理中仍存在严重漏诊现象,传统筛查工具和认知测试不仅耗用大量资源,患者也难以获得。然而早期检测正变得愈发关键,特别是随着近期阿尔茨海默病疗法的获批——这些疗法在疾病早期使用效果最佳。
"当许多患者获得正式诊断时,最佳治疗窗口可能已经关闭,"穆拉博士警告道。
参考资料:1. 基于大语言模型的自主智能体工作流在临床认知问题检测中的应用
【全文结束】

