AI真的在诊断中击败急诊医生了吗?研究结果揭示Did AI Really Beat ER Doctors At Diagnosis? Here’s What The Study Showed

环球医讯 / AI与医疗健康来源:www.forbes.com美国 - 英语2026-05-23 10:42:04 - 阅读时长5分钟 - 2085字
2026年4月30日发表在《科学》期刊的研究显示,OpenAI的o1模型在急诊分诊诊断准确率(67%)上超过内科医生(55%和50%),但媒体误读引发争议;研究实际聚焦AI处理真实临床数据的能力,而非取代医生——急诊医学核心在于排除生命威胁而非精准诊断,且AI未参与实际临床互动;哈佛研究作者强调该实验旨在验证AI临床推理能力,当前重点应是建立问责框架和探索AI辅助诊断场景,如减少医疗错误、辅助心电图解读等,而非盲目宣称AI超越医生。
AI急诊诊断急诊科医生临床推理电子病历医疗错误AI医疗问责临床诊断辅助急诊医学研究
AI真的在诊断中击败急诊医生了吗?研究结果揭示

一项4月30日发表在《科学》期刊的研究显示,人工智能在急诊科诊断病例的准确性上超过了医生。

研究发布数小时内,相关报道便在社交媒体、有线新闻和医院管理人员的收件箱中广泛传播。报道错误宣称,OpenAI的o1模型在诊断分诊主诉时的表现优于急诊医生的推理能力。

例如,美国国家公共广播电台网站发布的标题称:在现实世界测试中,AI模型诊断患者的表现优于医生。

许多急诊科医生对媒体报道的表述提出异议。作为一名急诊科医生,我也阅读了这项研究。对我而言,该研究的实际意义相当有趣但也颇为微妙。

研究的一位作者此后也对研究内容提供了富有见地的澄清。

研究内容与实际发现

实验向OpenAI的o1和4o模型提供了76名真实患者的电子病历,这些患者曾就诊于贝斯以色列女执事医疗中心急诊科并被收入院。

两名内科主治医师审阅了相同病例,随后另两名内科医师在不知诊断来源是人类还是AI的情况下评估结果。

OpenAI的o1模型在67%的分诊病例中识别出完全准确或高度相关的诊断,而两位医生的准确率分别为55%和50%。AI的优势在信息最少的初始分诊环节最为显著。研究人员谨慎指出,AI使用的是与每次诊断决策同时可用的原始、未经处理的电子健康记录数据。

然而,媒体报道大多忽略了急诊科仅是论文中六项实验之一。其余五项实验基于更成熟的AI诊断评估基准。

六项实验的总体结果令人印象深刻,但均不应被误认为AI已准备好独立诊断患者。尽管如此,自论文发表以来,急诊科医生已对急诊医学诊断研究提出质疑。

首先,研究中的医生并非急诊科医生,而是接受不同训练的内科医生。此外,急诊医学的首要目标并非总是精准诊断,而是排除生命威胁、管理不确定性,并在高流量、高风险环境中安全转移患者。

在繁忙的急诊科轮值一班,你将迅速理解:无论设计多精良的文本诊断练习都无法捕捉真实急诊医学的运作方式。在研究中,AI仅阅读病历记录,无法观察患者实际病情(这些细节可能改变鉴别诊断);它看不到细微的神经系统检查结果,也未注意到患者从分诊到诊室期间陈述的变化。

AI并未实践急诊医学,它只是基于所选信息提供书面意见。

研究作者回应批评

作为论文作者之一且本身是急诊科医生的哈佛医学院助理教授、贝斯以色列女执事医疗中心主治医师阿德里安·海莫维奇博士提出了不同观点。

"如今医学期刊发表的最棘手病例正被大语言模型常规解决,"他写道,"当患者入院时,通常由急诊医生进行接诊和稳定,随后转交内科医生负责住院治疗。本实验比较了大语言模型和内科医生仅凭急诊科可用信息推测入院患者诊断的能力。"

他进一步解释:"我们限定数据来自急诊科,是因为此处诊断不确定性最高,代表最严峻挑战。"

在海莫维奇看来,该研究并非旨在进行医生与机器的正面较量。其核心发现在于:作为首批真正'推理'模型之一的OpenAI o1,确实能在跨领域执行临床推理。

如何解读研究结果

我认为该研究结果意义重大,这也是《科学》——全球最负盛名的同行评审期刊之一——选择发表它的原因。

最重要发现并非比较准确率,而是AI在混乱、真实世界、未经处理的临床数据上表现出色。此前医生与AI的对比研究依赖经过修饰的病例陈述,与实际急诊护理相去甚远。

o1模型在高度不确定性中仍能保持竞争力,这是一个重要信号。另一关键点:按AI发展标准,该研究数据现已过时。新模型早已超越o1,因此无论o1在此设定何种基准,能力上限已进一步提升。

研究作者对下一步也持谨慎态度:应进行前瞻性试验,而非直接部署或替代医生。

AI在真实诊断中的潜在作用

截至2026年中旬,关于AI是否将参与临床诊断的争论已尘埃落定——它必将参与。

如今,急诊医生和其他专科医生利用AI获取真实病例的"第二意见",某些情况下这些见解相当有帮助。鉴于此,更关键的问题围绕治理、问责和整合展开。

目前尚无AI生成诊断的正式问责框架。若患者因医生采纳(或忽视)的AI建议而受损,责任归属何方?是操作失误的医生?采购软件的医院?还是创建AI模型的供应商?

这些问题将决定AI诊断工具是被审慎采纳、鲁莽推行,抑或因医疗行业风险规避特性而被彻底叫停。当错误的AI诊断被证实导致患者死亡时,系统可能过度反应并紧急终止应用。

全员出动的关键时刻

海莫维奇精准定位当前时刻:急诊医学正面临全员出动的挑战。问题已非模型是否具备能力——它们确实具备——而在于如何让它们以协助医生照护患者并改善行医体验的方式运作。

围绕本研究构建的研究脉络正反映关键问题:AI能否减少医疗错误?其处置决策导航准确度如何?能否帮助双重核查避免遗漏细微诊断发现?或辅助解读模棱两可的心电图以判断是否需要紧急心脏导管插入术?

美国急诊医师学院和学术急诊医学学会等专业组织正积极解决这些问题。

最终,我们应对"AI超越医生"的标题保持审慎,但严肃对待其背后的科学依据。那么,AI真的比急诊医生更擅长诊断吗?该研究并未直接提问,但它确实指明了技术发展的方向。

【全文结束】

猜你喜欢
  • AI生成的医疗领域社会工作者图像及其对职业身份的影响AI生成的医疗领域社会工作者图像及其对职业身份的影响
  • 研究人员开发出可映射人类细胞中基因协同工作方式的AI模型研究人员开发出可映射人类细胞中基因协同工作方式的AI模型
  • 观点:医疗健康AI的下一阶段将取决于运营执行观点:医疗健康AI的下一阶段将取决于运营执行
  • 心力衰竭解析心力衰竭解析
  • 从富查伊拉到阿布扎比:公民如何从新医疗系统中受益从富查伊拉到阿布扎比:公民如何从新医疗系统中受益
  • 戴尔CEO迈克尔·戴尔捐7.5亿美元建设AI医疗中心 称父母曾希望他当医生但"那部分没成功"戴尔CEO迈克尔·戴尔捐7.5亿美元建设AI医疗中心 称父母曾希望他当医生但"那部分没成功"
  • 卡内基梅隆大学与克利夫兰诊所开发高精度AI系统解读心脏磁共振成像扫描卡内基梅隆大学与克利夫兰诊所开发高精度AI系统解读心脏磁共振成像扫描
  • 安森保险首席数字和技术官谈保险公司如何运用人工智能提升患者互动安森保险首席数字和技术官谈保险公司如何运用人工智能提升患者互动
  • 温尼伯发生死亡事件后,加拿大卫生部发现2家Grifols血浆捐献中心存在缺陷温尼伯发生死亡事件后,加拿大卫生部发现2家Grifols血浆捐献中心存在缺陷
  • 透视"玻璃盒":一位医生为何认为医疗AI必须展示其工作原理透视"玻璃盒":一位医生为何认为医疗AI必须展示其工作原理
热点资讯
全站热点
全站热文