研究结果已于4月30日发表在《科学》杂志上。
由哈佛医学院(Harvard Medical School)和波士顿贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)的研究人员进行的一项研究,于四月底发表在世界上最负盛名的科学期刊《Science》上,在国际医学界引起了震动。简而言之,结论是:OpenAI开发的o1-preview人工智能模型在初步分诊案例中达到了67.1%的诊断准确率,而相比之下,两位并行评估的专业医生分别为55.3%和50%。
具体实验内容是什么?
研究人员在严格的临床实验中测试了数百名医生的反应与人工智能系统的反应。一项实验集中在波士顿一家医院急诊室到达的76名患者身上。AI系统和两名内科医生获得了患者电子病历中的完全相同的信息——生命体征、人口统计数据以及护士关于就诊原因的几句话。
实验的基本条件是方法学的正确性:研究团队强调,AI系统并未获得任何优待——诊断时电子病历中可用的数据与提供给医生的数据完全相同。信息没有经过任何预处理。
最关键时刻:初步分诊
当情况越紧急、记录越少时,AI系统的优势就越明显。差异尤其在诊断的第一个接触点——急诊室初步分诊——最为明显,那里关于患者的信息最少,做出正确决定的紧迫性最高。换句话说,AI在人类医生最脆弱的时候表现更好:疲惫、时间紧迫、数据不完整。
AI比医生高出12-17个百分点的优势代表了在关键分诊阶段诊断准确性的实质性提高。该模型在罕见或复杂病例中也表现出特别高的效率,而在这些情况下,人类思维往往会成为自身思维模式的牺牲品。
"这并不意味着AI取代医生"
研究作者在解释结果时表现谨慎。"我不认为我们的发现意味着AI取代医生,"哈佛医学院人工智能实验室主任、该研究的主要作者之一Arjun Manrai表示。然而,同一位研究人员承认,我们正在见证"技术上真正深刻的变革,将重塑医学"。
这类模型可能特别有用的场景之一正是急诊室的分诊,患者有时会出现不确定的症状,伴随着电子病历中大量充满信息噪音的数据。研究人员确定的第二个场景是为医生提供"第二意见"——是辅助,而非替代。
当AI出错时谁负责?
对结果的热情被困难的问题所抑制。存在对自动响应的盲目依赖风险——医生无意识地遵循AI的响应,而不是独立思考。随着AI使用频率的增加,这种趋势可能会增加,随着时间的推移削弱医生的临床推理能力。
更严重的是,法律框架不存在。谢菲尔德大学(University of Sheffield)的Wei Xing博士指出:"目前没有正式的责任框架",当AI做出诊断错误时。如果AI系统推荐了一个导致患者受伤的错误诊断,谁该负责——是开发者、医院还是依赖该建议的医生?
走向临床的道路
该研究建议迫切需要进行对照临床研究,以确定该技术在哪些情境下最为有效。与此同时,到2025年,全球五分之一的医生和护士已经在复杂病例中使用AI寻求第二意见,超过一半的人希望这样做。
哈佛的研究证实,我们已不再处于关于医学中AI讨论的推测阶段。我们已经进入了具体数据迫使我们做出决定的阶段:在哪里、如何以及在什么保障下,将让机器注视刚刚走进急诊室的患者的眼睛。
【全文结束】

