准备好了吗？大语言模型即将进军医学领域 - AI与医疗健康

准备好了吗？大语言模型即将进军医学领域Ready or Not, LLMs Are Coming for Medicine

环球医讯 / AI与医疗健康来源：www.medscape.com美国 - 英语2026-05-15 03:41:56 - 阅读时长6分钟 - 2536字

本文深入探讨了大语言模型在医学诊断领域的应用现状与发展趋势，剖析了《美国医学会杂志·网络公开赛》发表的一项研究，该研究评估了21种商用大语言模型在29个临床案例中的表现。文章指出，尽管这些模型在最终诊断准确率上超过90%，但在鉴别诊断等复杂推理环节仍存在明显不足。作者详细分析了"PriME-LLM"评分体系，并质疑了研究中潜在的反LLM偏见。文章预测，AI将逐步融入医疗流程，可能首先作为医生诊断的验证工具，随后承担分诊、病史采集等任务，最终可能在某些领域实现非劣效性，改变医疗行业格局，医生角色将逐渐转向更多监督职责。作者强调，虽然95%的诊断准确率令人印象深刻，但缺乏与人类医生的直接比较数据使结果解读存在困难，医疗AI的发展速度可能比我们预期的更快。

本文字稿经过编辑以提高清晰度。

欢迎收看《影响力因子》，这是您每周了解新医学研究评论的节目。我是来自耶鲁医学院的F. Perry Wilson医学博士。

在"医学中的人工智能"领域出现了一类新的医学论文，就像《X档案》中的穆德一样，我想要相信（这些论文的观点）。

这些论文的主题大都是"大语言模型不会取代好医生"，这对于一位绝对不希望被友好的人工智能取代的医生来说，这非常令人安心。但说实话，我对人类在此领域至高无上的信念正在动摇。

本周，《美国医学会杂志·网络公开赛》发表了一篇新论文，评估了各种大语言模型在诊断任务中的表现。

论文中充斥着这样的表述："我们的评估表明，尽管模式识别和知识检索技术迅速进步，但目前的大语言模型仍然缺乏安全临床应用所需的推理过程。"

这令人安心。

论文还指出："大语言模型在临床医学中的前景在于它们增强——而非取代——医生推理的潜力。"完美。我很乐意被增强。我宁愿不被取代。

但当我仔细阅读这项研究后，坦率地说，我现在比以往任何时候都更担忧。

让我为您剖析一下。

研究人员评估了21种商用大语言模型，包括所有主要产品（ChatGPT、Claude、DeepSeek、Grok、Gemini），在MSD手册的29个临床案例上进行了测试。

这项研究相比以往评估的关键创新在于这些案例的结构设计。其他评估大语言模型的研究通常呈现完整病例并简单提问"诊断是什么？"，但这些临床案例并非如此运作。

相反，它们是迭代发展的。你先得到初步症状描述，然后形成鉴别诊断，选择适当的检查，获取结果，完善鉴别诊断，如此反复，直到得出最终诊断。这反映了真实医学的工作方式。没有人会带着完整的现病史、实验室检查和影像学结果一起出现在急诊室。

最终，当然仍需给出最终诊断，而这些模型在这方面的表现相当出色——正确率超过90%。我会向您展示这些准确率；看起来DeepSeek略胜一筹，但这些模型的表现都非常接近，几乎总是命中目标。

这项研究的一个主要局限是作者没有包含任何人类对比数据。我搜索了文献中关于这些MSD案例的研究，想了解人类医生在这些案例上的表现，令我惊讶的是，我发现的所有研究实际上都是各种聊天机器人表现的研究。有人尝试过了解人类在这些案例上的表现吗？95%的准确率好吗？看起来不错。

说句实话，我查看了其中几个案例——它们是公开的。这些案例并不简单直接。我不是说自己是诊断大师之类的，但就最终诊断而言，我绝不可能达到95%的正确率。

然而，作者并未仅关注这一指标，尽管它很重要。相反，最终诊断的准确性只是五部分评分体系中的一个元素，该体系还包括鉴别诊断的准确性、诊断测试、治疗管理和各种临床推理。

这五个指标构成了一个新颖的"PriME-LLM"评分，由不规则五边形的面积定义——如果模型在每个问题上都表现完美，该评分可达100%。没有任何一个模型达到完美。

PriME-LLM评分在低端(Gemini 1.5)为0.64，高端(Grok 4、Gemini 3 Flash、Gemini 3 Pro)为0.78。我无法判断这是否良好，因为没有可供标准化的人类数据。

但这篇论文的写作风格，与该领域的许多论文一样，在我看来带有明显的反LLM偏见。例如，作者声称生成鉴别诊断的失败率在90%到100%之间。但我们必须看看他们是如何定义这里的"失败"的。

这些案例的结构是先呈现部分病例情况，然后提出一个问题和一份可能列入鉴别诊断的长列表。要"正确"，模型需要标记出所有可能列入鉴别诊断的项目，且不标记不应列入的项目。它们在这方面显然表现不佳。但我不确定我们中的任何人在这方面会表现得多好。

在其他方面，这些模型在我看来受到了束缚。具有推理能力的模型，如果该选项可用，则关闭了推理功能。能够访问互联网的模型不允许访问互联网。我猜这是为了公平竞争，但在我看来，这些正是AI诊断医生的一些潜在优势。

另一方面，作者承认他们不能确定这些MSD问题是否已经是模型训练集的一部分，在这种情况下，无论结果如何，所有这些响应都值得怀疑。尽管如果这只是简单地复述训练数据，你会认为模型应该能轻松应对那个非常棘手的鉴别诊断问题。

基本上，我们面对的是一组问题，无论其设计的最初目的是什么，它们基本上已经变成了一个标准的LLM基准测试。因此，我们可以用这个指标比较LLM之间的表现，但没有标准化的人类数据，我们不知道它们与普通医生相比表现如何。

而95%的最终诊断准确率不容小觑。如果我们的任何一个人能做到这么好，我会感到惊讶。

所以，我是这样预见未来的。很快，患者会要求一个AI代理（可能是专门为此目的训练的）"审查"医生做出的诊断和管理计划。或者，如果患者不这么做，保险公司会。正如作者所建议的，AI将"增强"医生的努力。

然后AI代理将逐渐渗透到边缘领域。或许紧急护理分诊线将由AI负责，然后再将患者转给医生。也许当患者在急诊室候诊区等待时，AI代理可以进行初步病史采集，甚至可以开一些基本检查，为医生做好准备。

然后，在某个时间点，随机对照试验将直接在这些领域比较AI代理与人类，并可能显示非劣效性。FDA将批准首个代理护理提供者，然后通过510(K)途径批准其他产品。某些州将通过法律，允许AI代理在没有医生介入的情况下开检查或药物。当然，医生仍将存在。但人数会减少，更多地担任监督角色。

我不确定这个时间线会是什么样，但我认为它比我们预期的要短。当这一切发生时，我们会回顾像这样的论文，指出大语言模型在鉴别诊断方面表现多么糟糕，并问自己，我们是如何错过了这么多明显的风向指示的。

F. Perry Wilson医学博士、医学科学硕士是医学和公共卫生副教授，也是耶鲁大学临床与转化研究加速器的主任。他的科学传播作品可以在《赫芬顿邮报》、NPR和Medscape上找到。他在@fperrywilson发布内容，他的著作《医学如何运作及何时不运作》现已出版。

【全文结束】

快速导航

国内健康

环球医讯

健康科普

医药资讯

家医百科

准备好了吗？大语言模型即将进军医学领域Ready or Not, LLMs Are Coming for Medicine