AI能像医生一样思考吗 - AI与医疗健康

AI能像医生一样思考吗Can AI think like a physician? | Medical Economics

环球医讯 / AI与医疗健康来源：www.medicaleconomics.com美国 - 英语2026-05-22 16:22:28 - 阅读时长6分钟 - 2801字

马萨诸塞州总医院布里格姆医院最新研究对21种大型语言模型进行了完整临床工作流程测试，发现AI在获得最终诊断方面能力较强(超过90%正确率)，但在早期推理阶段尤其是鉴别诊断环节表现较差(失败率超80%)。研究团队开发了PrIME-LLM评估指标，揭示了AI与医生思维方式的本质区别。文章通过采访研究负责人Marc Succi医学博士，深入探讨了AI在医疗实践中的实际应用限制，指出AI在低风险、高可行性任务中表现较好，但在高风险临床决策领域仍需谨慎，特别强调医生不应将AI的最终诊断误认为是可靠的临床推理，必须特别警惕鉴别诊断等高风险领域。

当患者带着模糊的主诉走进医生诊室时，诊断过程很少以明确答案开始。它始于不确定性——一系列可能性、一系列问题、一系列判断。

这种早期的开放式推理正是人工智能(AI)仍然无法良好完成的任务，根据发表在《JAMA网络开放》上的最新研究。

这项研究由马萨诸塞州总医院布里格姆医院MESH孵化器的研究人员领导，对包括最新版本ChatGPT、Claude、Gemini、Grok和DeepSeek在内的21种现成大型语言模型(LLMs)进行了测试，使用29个标准化患者病例进行逐步临床工作流程评估。

尽管在提供完整患者信息的情况下，这些模型有超过90%的时间能得出正确最终诊断，但它们有超过80%的时间无法生成适当的鉴别诊断。研究人员指出，这两个数字之间的差距正是搜索引擎与临床医生之间的差距。

为了更好地捕捉这一区别，研究团队开发了一个名为PrIME-LLM的新基准，该基准在临床推理的五个领域(鉴别诊断、诊断测试、最终诊断、管理和杂项推理)上对模型进行评分，并惩罚表现不均衡的模型，而不是通过平均来掩盖问题。

《Medical Economics》采访了该研究的通讯作者、马萨诸塞州总医院布里格姆医院MESH孵化器执行主任Marc Succi医学博士，探讨了这些发现对已在实践中使用这些工具的医生意味着什么。

以下采访经过了编辑，以精简篇幅并提高清晰度。

什么问题激发了这项研究？

这实际上是我们在2023年2月进行的原始研究的后续，那是关于生成式人工智能聊天机器人的首项同类研究。我们想看看当今的前沿大型语言模型——公众可获取的模型，比特定厂商模型更可能被使用——是否能够通过完整临床工作流程进行患者案例推理，而不仅仅是回答孤立的医学问题。

这一点很重要，因为许多评估仍通过关注狭隘基准和最终答案来夸大AI的准备程度，但它们并未真正考虑到医疗就诊在现实生活中是如何展开的。你不仅需要最终答案，还需要类似鉴别诊断的东西来告知收集哪些信息以及如何得到最终答案。我们认为当前评估这些模型的流行方式并不是一个适当的现实世界测试。

能否简要介绍研究设计并解释所使用的"PrIME-LLM"指标？

PrIME-LLM是我们开发的一个汇总指标，用于捕捉临床推理各领域中的均衡表现。如果只是平均结果，一个模型可能在某个重要领域表现非常弱，但看起来仍比实际要好。

因此，我们将表现分为鉴别诊断、诊断测试、最终诊断和管理等不同领域。平均值可能会掩盖那些在一个部分表现非常弱的模型。但PrIME-LLM指标基于形状下的面积，它奖励均衡、一致的表现，并惩罚表现不均衡的模型。

在医疗保健中，一切关乎可预测性和一致性。因此，我们认为我们开发的方法论是评估这些模型应遵循的方式。

研究发现了什么？

主要发现是最终诊断与早期阶段推理之间存在巨大差距。模型在最终诊断方面表现良好，在患者管理方面表现尚可，但鉴别诊断显然是它们最薄弱的环节。推理模型表现更好，但即使是表现最强的模型，在鉴别诊断方面仍然较差。

这一点很重要，因为鉴别诊断实际上是医学的艺术。那时你拥有有限的、不确定的信息——可能只是患者的一行主诉——你必须列出可能的诊断清单。这些可能性告知你应该订购哪些检查、患者获得最终诊断的速度以及就诊成本。

所以，是的，一个模型可能会得出正确的最终诊断。但代价是什么？它是否订购了过多的检查？它是否因为处理了本不应存在的鉴别诊断而使中风患者的护理延迟了一个小时？这就是为什么鉴别诊断与最终诊断之间的差距如此重要。

结果中有什么让您感到意外的吗？

我认为最突出的是鉴别诊断失败率与最终诊断表现之间的差距有多大。

与我们2023年2月使用相同问题集的原始研究相比，鉴别诊断也是表现最差的部分。三年后，鉴别诊断方面的性能提升并不大。模型整体上确实有所改善，但它们仍然无法像医生那样用有限信息进行推理。

你们测试了21种不同的模型，包括ChatGPT、Claude、Gemini和Grok等熟悉的名字。它们之间是否存在有意义的差异？

老实说，它们很相似。

每个家族的推理模型比非推理模型表现更好。Grok和ChatGPT在整体家族平均时往往位居前列，但最新模型之间的整体表现相当相似。

医生已经在使用这些工具。基于这项研究，他们现在应该对使用AI感到舒适的是什么，什么应该让他们警惕？

对于低风险、高可行性任务，我会感到舒适地使用人工智能。这包括环境文档记录、就诊笔记、摘要、患者友好解释和账单处理等。

如果这些方面出错，情况不算太糟，可能你会损失一些钱，但患者不会遭受伤害。

我认为人工智能目前在这方面表现良好，也真正在提供帮助。但一旦你开始进入更高风险的使用场景——临床决策支持、回复患者消息、订购实验室检查、续开药物、精神科药物——那就是你需要停下来非常批判性地、多方面地审视性能的时候，而不仅仅是相信厂商所说的。

所以对我来说，低风险、高可行性是我现在希望看到人工智能发挥作用的地方。

很多人谈论保持人在循环中。但在实践中，尤其是在漫长的一天之后，这种审查可能变得更为形式化。如何防止这种情况发生？

我不确定你能否确保这种情况永远不会发生。人类不能只是机械地批准输出，但真正的问题是责任。这位医生愿意承担多大风险？

你已经在医学中看到这种情况，当医生签署执业护士的笔记或批准住院医师的文档时。有些人会更加批判性，花更多时间审查，而有些人则不然。所以我认为这归结为个人风险承受能力。

话虽如此，医生必须积极质询和批判性评估人工智能的输出。对于环境文档记录，如果它最终成为标准，我认为工具应该必须解释自己，而不仅仅是交付输出。这可能有助于减少医生的认知负荷。可能会有一些类似这样的小设计选择有所帮助。但归根结底，我认为这取决于医生愿意承担多少责任风险。

我们的受众大多在初级保健领域。如果从这项研究中应保留一个要点，那是什么？

不要将这些模型中的最终答案或最终诊断误认为是可靠、安全的临床推理。

请注意，初始表现与最终诊断之间的差距是不确定性的所在，也是错误和安全问题风险最高的地方。因此，如果你在那些高风险领域使用人工智能——鉴别诊断和类似任务——你必须特别谨慎。

而且这项研究关注的是现成模型。即使如此，现成模型也远比患者最可能使用的模型，以及许多医生最可能接触到的模型。大多数医生，尤其是大多数初级保健医生，没有基础设施来部署最新的狭义医学推理模型。他们更可能使用ChatGPT或Claude，所以我认为这些发现广泛适用。

研究中还有什么您认为需要记住的重要事项吗？

重要的是要记住，这项研究反映了基础推理能力。它没有评估经过微调的医学模型。我们这样做的原因是因为可用性问题。不可避免地，有人会问，"为什么你不使用这个极其狭义、经过微调的医学模型？"但那不是大多数人实际在使用的。

【全文结束】

快速导航

国内健康

环球医讯

健康科普

医药资讯

家医百科

AI能像医生一样思考吗Can AI think like a physician? | Medical Economics