来源:Unsplash/CC0公共领域
尽管人工智能在医疗保健领域的应用日益广泛,但由马萨诸塞州总医院布里格姆医疗系统(Mass General Brigham)的MESH孵化器研究人员主导的一项新研究表明,生成式人工智能模型在临床推理能力方面仍存在明显不足。
在真实病例中测试AI
通过让21种不同的大型语言模型(LLMs)在一系列临床场景中扮演医生角色,研究人员发现LLMs常常无法顺利进行诊断流程并提出可测试的潜在或"鉴别"诊断列表。
根据发表在《JAMA Network Open》上的研究结果,尽管所有测试的LLMs在获得患者病例的全部相关信息时,超过90%的情况下能够得出正确的最终诊断,但它们在诊断过程早期、基于推理的关键步骤中表现持续不佳。
该研究的通讯作者、马萨诸塞州总医院布里格姆医疗系统MESH孵化器执行主任Marc Succi医学博士表示:"尽管持续改进,现成的大型语言模型尚未准备好用于无人监督的临床级部署。"
"鉴别诊断是临床推理的核心,构成了AI目前无法复制的'医学艺术'基础。人工智能在临床医学中的前景仍在于其增强而非取代医生推理的潜力,前提是所有相关数据都可用——而这种情况并不总是存在。"
创建新的模型评分方法
这项新研究是对Succi的MESH小组先前工作的延续,此前研究人员评估了ChatGPT 3.5准确诊断一系列临床案例的能力。
在这项新研究中,研究人员开发了一种新颖且更全面的LLMs评估方法,称为PrIME-LLM,该方法超越了单纯准确性考量,评估模型在临床推理不同阶段的能力——提出潜在诊断、进行适当检查、得出最终诊断和管理治疗。
研究人员表示,当模型在一个领域表现良好而在另一个领域表现不佳时,这种不平衡会反映在PrIME-LLM评分中,而不是像跨任务平均能力那样可能掩盖薄弱环节。
该研究比较了21种通用大型语言模型,包括提交时最新版本的ChatGPT、DeepSeek、Claude、Gemini和Grok。研究人员测试了这些模型处理29个已发表临床案例的能力。
为了模拟临床案例的实际展开方式,研究人员逐渐向模型提供信息,从患者的基本信息(如年龄、性别和症状)开始,然后逐步添加体格检查结果和实验室检查结果。LLMs在每个阶段的表现由医学生评估者进行评估,这些评估结果用于计算模型的总体PrIME-LLM评分。
诊断能力强但推理能力弱
与之前的研究结果一致,研究人员发现LLMs在生成准确的最终诊断方面表现良好。然而,所有模型在超过80%的情况下未能生成适当的鉴别诊断。
在现实医疗环境中,鉴别诊断至关重要,但在本研究中,研究人员向模型提供了更多信息,以便即使它们在鉴别诊断步骤失败,也能进入临床诊断流程的下一阶段。
研究的主要作者、MESH研究员、哈佛医学院MD-Ph.D.学生Arya Rao表示:"通过逐步评估LLMs,我们超越了将它们视为应试者的做法,真正将它们置于医生的角色位置。这些模型在数据完整后确定最终诊断方面表现出色,但在病例开始的开放式阶段(信息有限时)表现明显不足。"
研究结果对医院的意义
大多数LLMs在提供实验室结果和影像学检查结果(而不仅仅是文本信息)时表现出更高的准确性。最近发布的模型通常优于较旧的模型,表明LLMs正在逐步改进。模型的PrIME-LLM评分从Gemini 1.5 Flash的64%到Grok 4和GPT-5的78%不等。
Succi表示,PrIME-LLM代表了一种评估AI临床能力的标准化方法,可供AI开发者和医院领导在新技术发布时作为评估基准。
他补充道:"我们希望帮助区分这些工具在医疗保健应用中的炒作与现实。我们的结果强化了医疗保健中的大型语言模型仍然需要'人在回路中'和非常密切的监督。"
【全文结束】

