研究显示医生在临床推理方面仍优于人工智能Doctors still outperform AI in clinical reasoning, study shows

环球医讯 / AI与医疗健康来源:medicalxpress.com加拿大 - 英语2025-12-29 05:25:49 - 阅读时长5分钟 - 2217字
一项发表在《新英格兰医学杂志》上的研究揭示,尽管大型语言模型在多项选择题医学考试中表现卓越,但在临床推理能力上仍显著落后于人类医生。阿尔伯塔大学神经科住院医师利亚姆·麦科伊(Liam McCoy)通过脚本协调测试发现,AI模型难以根据新信息动态调整判断,经常错误地将无关信息(如患者脚趾受伤史)纳入诊断过程,且过度自信地解释错误结论。研究测试了来自谷歌、OpenAI等机构的10款主流AI模型,结果显示其水平仅相当于医学生初级阶段,远未达到资深医师标准,这表明医学诊断不仅需要知识储备,更需处理不确定性和复杂情境的灵活性,当前AI技术尚无法安全替代医生完成完整诊疗过程。
健康临床推理医生人工智能大型语言模型医学考试诊断脚本协调测试医学生患者安全医疗AI新英格兰医学杂志阿尔伯塔大学麦科伊
研究显示医生在临床推理方面仍优于人工智能

研究显示,尽管大型语言模型在多项选择题医学考试中表现出色,但在面对动态变化的临床信息时仍会陷入困境,这是发表在《新英格兰医学杂志》上的一项研究结论。

阿尔伯塔大学(University of Alberta)神经科住院医师利亚姆·麦科伊(Liam McCoy)评估了大型语言模型执行临床推理的能力——即梳理症状、安排正确检查、评估新信息并得出准确诊断结论的能力。

他发现,先进AI模型难以根据新出现的不确定信息更新判断,且经常无法识别完全无关的信息。事实上,一些旨在提升AI推理能力的近期改进反而加剧了过度自信问题。麦科伊指出,这表明尽管AI可能在医师资格考试中表现出色,但成为一名优秀医生远不止于快速回忆事实。

"大型语言模型在多项选择题上展现出超人表现,但我们尚未达到患者可以安全走进诊室、启动语言模型助手并让其完成全部诊疗的阶段,"麦科伊表示,他同时是麻省理工学院(Massachusetts Institute of Technology)的研究员及哈佛大学贝斯以色列女执事医疗中心(Harvard's Beth Israel Deaconess Medical Center)的研究实习生。

人工智能在医学中的扩展角色

麦科伊表示,过去五年间人工智能在医学领域的应用已突飞猛进——从撰写医生笔记到分析疾病数据模式、指导医师解读医学影像——但在给出诊断方面,AI尚未准备好取代医生。

麦科伊与来自哈佛、麻省理工等机构的同事借鉴医学教育方法,开发了名为concor.dance的基准测试工具,以衡量AI模型在临床推理中的灵活性。该工具基于脚本协调测试,这是评估医学生和护理学生技能的常用方法。

"作为临床医生,你会形成关于疾病表现、发展过程及后续步骤的'脚本'。最简单的例子是:当患者出现胸痛时,你会想到'心脏可能受累,因此应进行心电图和血液检查以排查心肌梗死标志物',"麦科伊解释道。

随着医学学习者经验积累,其诊断"脚本"变得更为复杂,能更好地区分相关症状并得出正确诊断。

"当你进阶后,可能会考虑'这种胸痛也可能由肺炎或肺膜穿孔引起',"他补充道,"你会发展出更复杂的脚本,并能根据患者状况灵活切换不同脚本。"

脚本协调测试的工作原理

在医学教育中,脚本协调测试通过将学生与各领域资深专家的细微人类推理能力对比来评分。

麦科伊针对AI模型的测试采用了来自加拿大、美国、新加坡和澳大利亚的医学院在手术、儿科、产科、精神病学、急诊医学、神经学和内科的诊断脚本。

麦科伊测试了谷歌(Google)、OpenAI、深度求索(DeepSeek)、Anthropic等机构的10款主流AI模型。结果显示,这些模型整体表现相当于医学生一、二年级水平,但常无法达到高年资住院医师或主治医师的标准。

麦科伊指出,在所用脚本协调测试中,约30%的新信息是干扰项,不会改变诊断或治疗方案。例如,得知假想的胸痛患者上周曾踢伤脚趾,这通常与病例无关,但AI模型却难以识别这一点。相反,最先进的模型会试图解释为何这些无关事实具有相关性,从而导致诊断错误。

"我们对大型语言模型最担忧的是,它们被微调得过于'乐于助人',频繁提供令人类信任的答案,"麦科伊表示,"它们会以让你信服的方式解释错误,模型输出极具说服力却错误答案的方式多种多样。"

人工智能与人类推理的比较

有趣的是,在多项选择题考试中表现出色的人类医学生,未必在脚本协调测试中同样优秀,因为这是截然不同的技能。"必须认识到,临床推理等任务的表现极为复杂且任务特异,"麦科伊强调。

这并不意味着AI模型无法改进。麦科伊认为该技术将长期存在,因此研究人员有责任持续推动其进步。

"这项技术无论如何都会到来,因此我认为作为医师,我们需要确保它有效、公平且符合患者需求,而非任由外部力量主导其发展,"他表示。

麦科伊在2015年凭借获得校长百年引文奖(阿尔伯塔大学最丰厚的本科奖学金)开启学业时便展现出潜力。如今,他已取得多伦多大学医学学位,并在麻省理工学院和哈佛大学有过研修经历,目前神经科住院医师培训进度过半。

麦科伊计划继续测试能帮助临床医生提升工作效率的AI系统。谷歌和微软研究院的研究人员已就其基准测试工具提出咨询,他希望能与这些机构合作改进临床场景专用AI。

为解释推动AI对医患更实用的动机,麦科伊引用了Facebook创始人马克·扎克伯格(Mark Zuckerberg)的观点。

"在医学领域你不能'快速行动、打破常规',因为人命关天,必须保持适当谨慎,"麦科伊表示,"但同时,这些高风险也强化了我的紧迫感。"

"我们有道德责任使用现有最佳技术,无论是新型MRI扫描仪、新式放疗设备还是新型手术工具。最终,这种最佳技术很可能演变为临床推理工具。"

更多信息:利亚姆·G·麦科伊(Liam G. McCoy)等,《大型语言模型在临床推理中的评估:一项新型基准测试研究》,《新英格兰医学杂志AI版》(NEJM AI)(2025)。DOI: 10.1056/aidbp2500120

期刊信息:新英格兰医学杂志

由阿尔伯塔大学提供

【全文结束】

猜你喜欢
    热点资讯
    全站热点
    全站热文