准备好了吗?大语言模型即将进军医学领域Ready or Not, LLMs Are Coming for Medicine

环球医讯 / AI与医疗健康来源:www.medscape.com美国 - 英语2026-05-15 03:41:56 - 阅读时长6分钟 - 2536字
本文深入探讨了大语言模型在医学诊断领域的应用现状与发展趋势,剖析了《美国医学会杂志·网络公开赛》发表的一项研究,该研究评估了21种商用大语言模型在29个临床案例中的表现。文章指出,尽管这些模型在最终诊断准确率上超过90%,但在鉴别诊断等复杂推理环节仍存在明显不足。作者详细分析了"PriME-LLM"评分体系,并质疑了研究中潜在的反LLM偏见。文章预测,AI将逐步融入医疗流程,可能首先作为医生诊断的验证工具,随后承担分诊、病史采集等任务,最终可能在某些领域实现非劣效性,改变医疗行业格局,医生角色将逐渐转向更多监督职责。作者强调,虽然95%的诊断准确率令人印象深刻,但缺乏与人类医生的直接比较数据使结果解读存在困难,医疗AI的发展速度可能比我们预期的更快。
大语言模型医学领域临床诊断PriME-LLM评分AI医疗临床推理医生增强鉴别诊断
准备好了吗?大语言模型即将进军医学领域

本文字稿经过编辑以提高清晰度。

欢迎收看《影响力因子》,这是您每周了解新医学研究评论的节目。我是来自耶鲁医学院的F. Perry Wilson医学博士。

在"医学中的人工智能"领域出现了一类新的医学论文,就像《X档案》中的穆德一样,我想要相信(这些论文的观点)。

这些论文的主题大都是"大语言模型不会取代好医生",这对于一位绝对不希望被友好的人工智能取代的医生来说,这非常令人安心。但说实话,我对人类在此领域至高无上的信念正在动摇。

本周,《美国医学会杂志·网络公开赛》发表了一篇新论文,评估了各种大语言模型在诊断任务中的表现。

论文中充斥着这样的表述:"我们的评估表明,尽管模式识别和知识检索技术迅速进步,但目前的大语言模型仍然缺乏安全临床应用所需的推理过程。"

这令人安心。

论文还指出:"大语言模型在临床医学中的前景在于它们增强——而非取代——医生推理的潜力。"完美。我很乐意被增强。我宁愿不被取代。

但当我仔细阅读这项研究后,坦率地说,我现在比以往任何时候都更担忧。

让我为您剖析一下。

研究人员评估了21种商用大语言模型,包括所有主要产品(ChatGPT、Claude、DeepSeek、Grok、Gemini),在MSD手册的29个临床案例上进行了测试。

这项研究相比以往评估的关键创新在于这些案例的结构设计。其他评估大语言模型的研究通常呈现完整病例并简单提问"诊断是什么?",但这些临床案例并非如此运作。

相反,它们是迭代发展的。你先得到初步症状描述,然后形成鉴别诊断,选择适当的检查,获取结果,完善鉴别诊断,如此反复,直到得出最终诊断。这反映了真实医学的工作方式。没有人会带着完整的现病史、实验室检查和影像学结果一起出现在急诊室。

最终,当然仍需给出最终诊断,而这些模型在这方面的表现相当出色——正确率超过90%。我会向您展示这些准确率;看起来DeepSeek略胜一筹,但这些模型的表现都非常接近,几乎总是命中目标。

这项研究的一个主要局限是作者没有包含任何人类对比数据。我搜索了文献中关于这些MSD案例的研究,想了解人类医生在这些案例上的表现,令我惊讶的是,我发现的所有研究实际上都是各种聊天机器人表现的研究。有人尝试过了解人类在这些案例上的表现吗?95%的准确率好吗?看起来不错。

说句实话,我查看了其中几个案例——它们是公开的。这些案例并不简单直接。我不是说自己是诊断大师之类的,但就最终诊断而言,我绝不可能达到95%的正确率。

然而,作者并未仅关注这一指标,尽管它很重要。相反,最终诊断的准确性只是五部分评分体系中的一个元素,该体系还包括鉴别诊断的准确性、诊断测试、治疗管理和各种临床推理。

这五个指标构成了一个新颖的"PriME-LLM"评分,由不规则五边形的面积定义——如果模型在每个问题上都表现完美,该评分可达100%。没有任何一个模型达到完美。

PriME-LLM评分在低端(Gemini 1.5)为0.64,高端(Grok 4、Gemini 3 Flash、Gemini 3 Pro)为0.78。我无法判断这是否良好,因为没有可供标准化的人类数据。

但这篇论文的写作风格,与该领域的许多论文一样,在我看来带有明显的反LLM偏见。例如,作者声称生成鉴别诊断的失败率在90%到100%之间。但我们必须看看他们是如何定义这里的"失败"的。

这些案例的结构是先呈现部分病例情况,然后提出一个问题和一份可能列入鉴别诊断的长列表。要"正确",模型需要标记出所有可能列入鉴别诊断的项目,且不标记不应列入的项目。它们在这方面显然表现不佳。但我不确定我们中的任何人在这方面会表现得多好。

在其他方面,这些模型在我看来受到了束缚。具有推理能力的模型,如果该选项可用,则关闭了推理功能。能够访问互联网的模型不允许访问互联网。我猜这是为了公平竞争,但在我看来,这些正是AI诊断医生的一些潜在优势。

另一方面,作者承认他们不能确定这些MSD问题是否已经是模型训练集的一部分,在这种情况下,无论结果如何,所有这些响应都值得怀疑。尽管如果这只是简单地复述训练数据,你会认为模型应该能轻松应对那个非常棘手的鉴别诊断问题。

基本上,我们面对的是一组问题,无论其设计的最初目的是什么,它们基本上已经变成了一个标准的LLM基准测试。因此,我们可以用这个指标比较LLM之间的表现,但没有标准化的人类数据,我们不知道它们与普通医生相比表现如何。

而95%的最终诊断准确率不容小觑。如果我们的任何一个人能做到这么好,我会感到惊讶。

所以,我是这样预见未来的。很快,患者会要求一个AI代理(可能是专门为此目的训练的)"审查"医生做出的诊断和管理计划。或者,如果患者不这么做,保险公司会。正如作者所建议的,AI将"增强"医生的努力。

然后AI代理将逐渐渗透到边缘领域。或许紧急护理分诊线将由AI负责,然后再将患者转给医生。也许当患者在急诊室候诊区等待时,AI代理可以进行初步病史采集,甚至可以开一些基本检查,为医生做好准备。

然后,在某个时间点,随机对照试验将直接在这些领域比较AI代理与人类,并可能显示非劣效性。FDA将批准首个代理护理提供者,然后通过510(K)途径批准其他产品。某些州将通过法律,允许AI代理在没有医生介入的情况下开检查或药物。当然,医生仍将存在。但人数会减少,更多地担任监督角色。

我不确定这个时间线会是什么样,但我认为它比我们预期的要短。当这一切发生时,我们会回顾像这样的论文,指出大语言模型在鉴别诊断方面表现多么糟糕,并问自己,我们是如何错过了这么多明显的风向指示的。

F. Perry Wilson医学博士、医学科学硕士是医学和公共卫生副教授,也是耶鲁大学临床与转化研究加速器的主任。他的科学传播作品可以在《赫芬顿邮报》、NPR和Medscape上找到。他在@fperrywilson发布内容,他的著作《医学如何运作及何时不运作》现已出版。

【全文结束】

猜你喜欢
  • 使用AI聊天机器人获取医疗建议可能严重损害健康使用AI聊天机器人获取医疗建议可能严重损害健康
  • 智能手表对心房颤动的检测准确性:不要混淆警报与确认智能手表对心房颤动的检测准确性:不要混淆警报与确认
  • Anthropic新董事会成员预示医疗健康领域布局Anthropic新董事会成员预示医疗健康领域布局
  • OpenAI进军科学领域推出Rosalind模型OpenAI进军科学领域推出Rosalind模型
  • 阿联酋放射学会议展示人工智能在16国诊断与患者护理中的技术突破阿联酋放射学会议展示人工智能在16国诊断与患者护理中的技术突破
  • 女性反应不同:白堡医院主任医生希望提高同事的意识女性反应不同:白堡医院主任医生希望提高同事的意识
  • 数百万美国人向AI咨询健康问题,部分人危险地跳过了真正的医生数百万美国人向AI咨询健康问题,部分人危险地跳过了真正的医生
  • AI向善:Xero与Bayesian Health领袖谈人工智能在商业与医疗中的责任应用AI向善:Xero与Bayesian Health领袖谈人工智能在商业与医疗中的责任应用
  • AI聊天机器人轻信虚假疾病与伪造研究——专家警告勿从聊天机器人获取医疗建议AI聊天机器人轻信虚假疾病与伪造研究——专家警告勿从聊天机器人获取医疗建议
  • 沙迦阿尔卡西米医院采用最新冠状动脉造影程序沙迦阿尔卡西米医院采用最新冠状动脉造影程序
热点资讯
全站热点
全站热文