一种状态感知医疗AI系统在实时诊断聊天中解读图像、心电图和临床文档,在模拟咨询中表现超过初级保健医生,同时也引发了关于此类工具在实际医疗应用前应如何测试的紧迫问题。
研究:利用多模态推理推进会诊诊断AI。图片来源:Explode / Shutterstock
在最近发表在《自然医学》杂志上的一项研究中,研究人员描述了清晰医疗智能探索者(Articulate Medical Intelligence Explorer,简称AMIE)的多模态扩展版本的开发。该模型旨在利用状态感知推理框架来管理临床对话并解读视觉文档。随后,该研究进行了一项随机、双盲探索性研究,涉及105个多模态临床场景,产生了210次模拟远程医疗咨询,比较了AMIE与19名董事会认证的初级保健医生的表现。
研究结果表明,这种新型多模态模型在32个评估指标中的29个上表现优于初级保健医生,包括诊断准确性和咨询质量指标(如共情能力)。这些发现表明,多模态AI最终可能支持远程医疗交付,但需要真实世界的验证。
多模态临床AI背景
全球医疗保健交付越来越多地记录与延迟获得医疗保健相关的发病率风险,专家将这一模式归因于临床医生倦怠、医疗碎片化和全球人口老龄化的压力不断增加。虽然生成式AI显示出缓解这些挑战的潜力,但早期的医疗大型语言模型(LLM)实施主要局限于仅文本的聊天机器人。
该领域的评论强调,这种"仅文本"的限制偏离了标准临床实践,在标准临床实践中,许多诊断信息可以从病史采集和体格检查中获得,通常辅以视觉数据。
这些限制在远程医疗环境中尤为明显,在这种环境中,据报道患者经常与临床医生交换多模态信息,如智能手机拍摄的皮肤照片、心电图(ECG)记录或扫描的实验室报告。
AMIE多模态推理研究设计
本研究旨在通过开发一个多模态系统来解决这一持续存在的医疗AI限制,该系统能够在实时诊断咨询中战略性地请求和解读这些视觉文档,从而模拟经验丰富的临床医生的结构化推理。
该系统被命名为"AMIE",基于Gemini 2.0 Flash基础模型构建,并通过一种新颖的"状态感知"推理时推理框架进行了增强。AMIE的定制架构旨在使模型能够维护一个内部"患者状态",跟踪每位患者的主诉、现病史和优先知识缺口。
在临床使用中,该框架旨在通过三个顺序阶段专门指导诊断咨询:
问诊阶段,在此阶段系统迭代更新患者档案并识别信息缺口。此外,模型确定是否以及何时请求多模态文档以增强其对患者临床病史的理解。
诊断与管理阶段,在此阶段系统生成鉴别诊断(DDx)报告,为最相关的已识别病症提供面向患者的解释和管理指导。
随访阶段,在此阶段AI处理并澄清患者可能存在的任何疑虑,并传达最终管理计划,确保患者或护理人员的理解。
模型性能使用适应同步聊天的客观结构化临床考试(OSCE)格式进行验证,其中AMIE与19名初级保健医生进行了评估。患者队列包括25名经过验证的患者演员,参与了210次咨询,每个场景两次。
考试场景基于真实世界数据集:皮肤状况图像网络(SCIN)用于皮肤病学,PTB-XL用于心电图记录,以及精选的临床文档。
18名专科医生使用多模态理解与处理(MUH)评分标准、临床检查技能实用评估(PACES)和英国医学委员会患者问卷(GMCPQ)评估了性能。
诊断准确性与咨询结果
OSCE评估数据表明,多模态AMIE在客观准确性和主观质量测量方面均表现出显著的性能优势,在32个评估指标中有29个优于初级保健医生。
在评估诊断准确性时,统计模型证实AI的鉴别诊断列表比人类医生的更准确、更全面(P < 0.001)。尽管分析了包含1至10个诊断的列表的准确性,但AMIE和初级保健医生并不总是提交10个鉴别诊断。在所有模态中,对于包含1至10个诊断的列表,AI的top-k准确率始终超过初级保健医生的表现。
在临床文档场景的单独自动化消融分析中,AI的top-1准确率达到0.98,而"Vanilla"基线Gemini 2.0 Flash模型为0.89,表明状态感知推理提高了基础模型之外的性能。
在多模态推理和整体稳健性的评估中,使用MUH评分标准的专家评估在9个指标中有7个有利于AI。AMIE对图像质量变化表现出特别的稳健性,低质量图像导致初级保健医生的诊断性能下降比AMIE更大。在这项模拟评估中,AMIE也显示出比初级保健医生更少、后果更小的文档相关误报事件(P < 0.001)。
此外,患者演员在11项GMCPQ标准中的10项上对AI的评分显著更高,包括表现出共情能力和倾听。在多模态任务中,AI因其解释发现的能力而获得更有利的评分(P < 0.01)。
会诊诊断AI的影响
本研究使用代表真实世界临床场景的数据,强调了如何通过将感知基础与状态感知推理相结合,使尖端AI模型在这些模拟诊断环境中实现与初级保健医生相匹配或超越的表现。
尽管有这些结果,研究人员警告称,这项研究是一项探索性调查,而非随机临床试验。在考虑临床部署之前,未来的工作必须评估系统在真实世界环境中的性能、安全性、可靠性、对临床工作流程的影响以及健康公平性。
期刊参考文献:
Saab, K., 等. (2026). 利用多模态推理推进会诊诊断AI. 《自然医学》. DOI, 10.1038/s41591-026-04371-0.
【全文结束】

