一项利用自主型人工智能检测非结构化医疗记录中早期认知衰退迹象的研究发现,该技术无需任何人工指导即可达到接近专家级的表现。
麻省总医院布里格姆医疗系统(Mass General Brigham)研究人员构建了基于Meta大语言模型(LLMs)Llama和Med42的五智能体辩论工作流。研究数据涵盖200名真实患者及3300多份临床笔记。该AI系统在无人工干预下实现超90%的专家级准确率。
“我们本质上构建了一个数字临床团队,”该研究成员、麻省总医院临床增强智能研究组主任兼医学副教授侯赛因·埃斯蒂里博士向Fierce Healthcare表示,“成本显著更低,因为无需人类参与,完全自主运行。”
研究考察了模型在两类数据集的表现:模拟真实场景的验证数据集和训练数据更均衡的优化数据集。随研究发布,团队同时推出开源工具Pythia,助力其他研究者部署自主提示优化技术于其AI筛查应用。
在验证数据集中,人类评审员最初对AI标记的16个案例持异议(判定为假阴性,即AI认为无认知问题)。但独立专家最终在44%的争议案例中支持AI判断,证明其基于现有证据正确排除了疑虑——尽管AI仅依赖临床笔记工作,而人类评审可获取完整病历。
该AI在缺乏临床背景的孤立数据点分析中表现欠佳,但在解析完整临床叙事、现病史、检查结果及临床推理方面表现出色。埃斯蒂里解释选择Meta大语言模型的原因是“确保资源有限的医疗系统也能部署该系统”,因其无需英伟达GPU等专用处理器,普通苹果或戴尔笔记本即可运行。
研究人员特别记录了工作流失效场景:优化数据集的敏感性出现“显著”下降。埃斯蒂里强调,AI系统不可直接套用,需针对各医疗系统的独特人口特征定制。“我们提供开源工具,使任何资源条件的医院系统都能用自有数据实现该流程。”麻省总医院神经科人口健康主任莉迪亚·穆拉博士补充道,近期大语言模型的突破正变革临床工作流潜力。穆拉曾通过医保理赔数据研究痴呆模式,发现“令人不安”的现象:从质量指标到报销标准均基于脱离现实的测量方式。
“认知变化极少以标准化方式显现,”穆拉向Fierce Healthcare指出,“可能表现为爽约或患者叙述方式改变。然而众多医疗政策仍依赖假设认知可被精准量化的指标。”她强调人力筛查不可持续:就诊时间有限、医师短缺且老龄人口激增。“即便进行3.5小时心理评估,仍难确定真实状况——这是高度主观的领域。”
穆拉证实,从临床笔记等非结构化数据中提取信息比依赖理赔数据和简单算法更敏感。但人类专家亦难持续追踪自由文本中的复杂背景因素。“大语言模型显然是解决方案——它们并非取代,而是辅助和支持医疗服务。”她总结道:“这项工作体现机构致力于运用高级分析技术,将难以规模化追踪的模式可视化,从而支持临床决策。”
【全文结束】

