一名肺栓塞患者来到医院就诊——这是一种血栓已进入肺部的疾病。在症状最初有所改善后,患者病情开始恶化。医疗团队怀疑药物治疗无效。
此时,人工智能介入——并提出了自己的理论。
它扫描了医疗记录,怀疑患者有狼疮病史(一种可能导致心脏炎症的自身免疫性疾病),这可以解释患者真正的病因。
事实证明,AI模型的判断是正确的。
根据周四发表在《科学》杂志上的一项研究,这类场景可能在不久的将来成为现实。
哈佛医学院和贝斯以色列女执事医疗中心的研究人员发现,由OpenAI开发的AI推理模型在诊断患者和决定治疗方案方面表现出色,不仅匹敌甚至经常超越医生和早期AI模型GPT-4的表现。
研究人员对AI模型进行了一系列实验,测试其临床判断能力——包括在波士顿贝斯以色列急诊部曾治疗过的狼疮患者等真实案例。
研究团队评估了AI模型在三个关键时间点提供准确诊断的能力,从急诊室分诊阶段到住院阶段。
总体而言,AI的表现优于两名经验丰富的医生——而且它仅凭电子健康记录和当时医生可获得的有限信息就做到了这一点。
"对我来说,这是最重要的结论——它能处理急诊室混乱的真实世界数据,"贝斯以色列的临床研究员、该研究作者之一亚当·罗德曼博士说,"它能在现实世界中进行诊断。"
研究的其他部分聚焦于发表在《新英格兰医学杂志》上的病例报告和临床案例,以探究AI模型是否能达到公认的"基准"并解决棘手的诊断问题。
"该模型的表现超过了我们庞大的医生基线,"哈佛医学院生物医学信息学助理教授拉吉·曼拉伊说,他也是该研究的参与者。
作者强调,AI仅依赖文本,而在现实生活中,临床医生在诊断和治疗患者时需要处理图像、声音和非语言线索等多种输入。
尽管如此,这项工作展示了该技术在过去几年中取得的显著进步。早期的大型语言模型在处理不确定性以及生成可能解释症状的潜在疾病列表(即鉴别诊断)时表现不佳。
"这篇论文完美总结了事情改善的程度,"纽约西奈山医疗系统的首席临床官大卫·赖希博士说,他没有参与这项研究。
"你拥有了某种相当准确、可能已准备好投入实际应用的东西,"他说,"现在的问题是如何以真正改善医疗护理的方式将其引入临床工作流程。"
毕竟,得出某个复杂的最终诊断——AI模型擅长的领域——不一定能反映"真实临床医学"中的情况,赖希说,在那里"结果要微妙得多,可能也更多样。"
而且急诊室只是患者整体医疗护理的一小部分。罗德曼承认,如果研究团队提供在医院住了一个月的患者的记录,AI可能不会表现得如此"令人印象深刻"。
参与这项新研究的人都不认为这些发现支持用AI取代医生,"尽管一些公司可能会说什么以及他们可能如何利用这些结果,"曼拉伊说。
"我认为这确实意味着我们正在见证一项将重塑医学的深刻技术变革,"他补充道。
但结果确实说明AI模型需要以严格的方式进行测试,最好是通过前瞻性试验,以便更确定地了解该技术最终如何影响临床实践。
"设计这些试验是一个极具挑战性的过程,"赖希说,"但这项研究是一个完美的行动号召。"
© 2026 NPR 版权所有
更正:2026年5月1日上午10:13(太平洋夏令时间)——先前的标题错误地表示AI的表现超过了急诊医生。事实上,该研究将AI与内科医生进行了比较。
【全文结束】

