一项小型研究发现,ChatGPT在评估医疗病例史方面超过了人类医生,尽管医生接触到了人工智能工具,但很少知道如何利用聊天机器人的能力。波士顿贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Centre)的内科专家亚当·罗德曼博士(Dr. Adam Rodman)曾自信地认为,使用人工智能构建的聊天机器人会帮助医生诊断疾病。然而,他错了,《纽约时报》(The New York Times)报道了这一点。
相反,在他参与设计的一项研究中,获得ChatGPT-4和传统资源的医生仅略好于没有使用该聊天机器人的医生。令研究人员惊讶的是,单独使用的ChatGPT表现优于医生。“我非常震惊,”罗德曼说。
来自OpenAI公司的聊天机器人在从病例报告中诊断医学状况并解释其推理时,平均得分为90%。被随机分配使用聊天机器人的医生平均得分为76%,而未使用聊天机器人的医生平均得分为74%。
这项研究不仅展示了聊天机器人的优越性能,还揭示了医生有时对自我诊断的坚定信念,即使聊天机器人可能提出了更好的诊断建议。研究表明,尽管医生接触到了人工智能工具,但很少有人知道如何充分利用聊天机器人的能力。因此,他们未能利用系统解决复杂诊断问题和提供诊断解释的能力。
罗德曼表示,AI系统应该是“医生助手”,提供有价值的第二意见。但似乎还有很长的路要走,才能实现这一潜力。
实验涉及50名医生,包括住院医师和主治医师,通过几家大型美国医院系统招募,并发表在《JAMA网络开放》(JAMA Network Open)上。测试对象被给予六个病例史,并根据他们提出诊断和解释为何支持或排除这些诊断的能力进行评分。他们的评分还包括最终诊断是否正确。
评分者是只看到参与者答案的医学专家,不知道这些答案来自使用ChatGPT的医生、未使用ChatGPT的医生还是单独使用的ChatGPT。研究中使用的病例史基于真实患者,是自1990年代以来研究人员使用的一组105个病例的一部分。这些病例从未被公开发布,以便医学学生和其他人在没有任何先验知识的情况下接受测试。这也意味着ChatGPT不可能在这些病例上进行训练。
为了说明研究内容,调查人员公布了一个用于测试医生的六个病例之一及其答案。这个测试案例涉及一名76岁的患者,他在行走时出现严重的腰背、臀部和小腿疼痛。这种疼痛在他接受球囊血管成形术扩张冠状动脉几天后开始。他接受了48小时的肝素治疗。
患者抱怨自己发烧和疲劳。他的心脏病专家进行了实验室检查,结果显示新发贫血和血液中氮和其他肾废物产物的积累。十年前,该患者因心脏病接受过搭桥手术。
病历继续描述了他的体格检查细节,并提供了他的实验室检查结果。正确的诊断是胆固醇栓塞,这是一种胆固醇碎片从动脉斑块中脱落并阻塞血管的情况。
参与者被要求提供三个可能的诊断,并为每个诊断提供支持证据。他们还需要为每个可能的诊断提供不支持的发现或预期但不存在的发现。此外,参与者需要提供最终诊断。然后,他们需要命名在诊断过程中将采取的最多三个额外步骤。
与公布的病例一样,研究中的其他五个病例的诊断也并不容易得出。但它们也不像几乎闻所未闻的罕见疾病。然而,医生的平均表现不如聊天机器人。
研究人员问,这是怎么回事?答案似乎在于医生如何确定诊断以及他们如何使用人工智能工具。
布里格姆妇女医院(Brigham and Women’s Hospital)的医学历史学家安德鲁·利博士(Dr. Andrew Lea)表示,问题在于“我们真的不知道医生是如何思考的”。在描述他们如何得出诊断时,医生会说“直觉”或“基于我的经验”。
这种模糊性已经困扰了研究人员几十年,因为他们试图制作可以像医生一样思考的计算机程序。这种追求始于近70年前。“自从有了计算机,就有人试图用它们来做出诊断,”利补充道。
最雄心勃勃的尝试之一始于1970年代的匹兹堡大学(University of Pittsburgh)。那里的计算机科学家招募了杰克·迈尔斯博士(Dr. Jack Myers),他是医学院内科系主任,以其出色的诊断能力著称。他有摄影记忆,并每周花20小时在医学图书馆,试图了解医学领域的所有知识。
迈尔斯被给予病例的医学细节,并解释他的诊断推理。计算机科学家将其逻辑链转换为代码。由此产生的程序称为INTERNIST-1,包括500多种疾病和约3500种症状。
为了测试它,研究人员给它提供了《新英格兰医学杂志》(New England Journal of Medicine)的病例。“计算机做得非常好,”罗德曼说。“它的表现可能比人类更好,”他补充道。
但INTERNIST-1并未普及。它难以使用,需要超过一个小时的时间输入所需的信息以做出诊断。而且,其创建者指出,“目前形式的程序还不足以用于临床应用。”
研究继续进行。到20世纪90年代中期,大约有六种试图进行医学诊断的计算机程序。但没有一种得到广泛应用。“这不仅仅是因为它必须易于使用,医生还必须信任它,”罗德曼说。
随着对医生思维方式的不确定性,专家们开始质疑是否应该关心。尝试设计计算机程序以像人类一样做出诊断有多重要?
“关于计算机程序应模仿人类推理的程度存在争论,”利说。“为什么我们不发挥计算机的优势呢?”计算机可能无法清楚地解释其决策路径,但如果它能正确诊断,这又有什么关系呢?
随着大型语言模型如ChatGPT的出现,对话发生了变化。这些模型没有明确尝试复制医生的思维方式;它们的诊断能力来自于预测语言的能力。“聊天界面是杀手级应用,”斯坦福大学(Stanford)的医生兼计算机科学家乔纳森·陈博士(Dr. Jonathan Chen)说,他也是这项新研究的作者之一。“我们可以将整个病例输入计算机,”他说。“几年前,计算机还不能理解语言。”
但许多医生可能并未充分利用其潜力。
在对新研究结果感到震惊之后,罗德曼决定深入研究数据,查看医生与ChatGPT之间的实际消息记录。医生们一定看到了聊天机器人的诊断和推理,那么为什么使用聊天机器人的医生表现没有更好呢?
事实证明,当聊天机器人指出与其诊断不符的内容时,医生们往往不会被说服。相反,他们倾向于坚持自己的正确诊断。“他们不听AI告诉他们的不同意的观点,”罗德曼说。
鹿特丹伊拉斯谟医学中心(Erasmus Medical Centre)的临床推理和诊断错误研究者劳拉·佐万(Laura Zwaan)说:“人们通常在认为自己正确时过于自信。”她没有参与这项研究。
但还有一个问题:许多医生不知道如何充分利用聊天机器人。陈说,当他查看医生的聊天记录时,发现“他们将其视为搜索引擎,提出定向问题:‘肝硬化是否是癌症的风险因素?眼痛的可能诊断是什么?’”
“只有少数医生意识到,他们可以将整个病例史复制粘贴到聊天机器人中,只需要求它提供全面的答案,”他补充道。“只有少数医生实际上看到了聊天机器人能够提供的令人惊讶的智能和全面的答案。”
研究详情
大型语言模型对诊断推理的影响——随机临床试验
戈尔·埃森、罗伯特·加洛、杰森·霍姆等
发表于《JAMA网络开放》2024年10月28日
摘要
重要性 大型语言模型(LLMs)在多项选择和开放式医学推理考试中的表现显示出潜力,但尚不清楚使用此类工具是否能改善医生的诊断推理。
目的 评估大型语言模型对医生诊断推理的影响,与传统资源相比。
设计、环境和参与者 单盲随机临床试验于2023年11月29日至12月29日进行。通过远程视频会议和多所学术医疗机构的现场参与,招募了接受家庭医学、内科医学或急诊医学培训的医生。
干预措施 参与者被随机分配为除了传统诊断资源外还可以访问大型语言模型,或仅使用传统资源,按职业阶段分层。参与者有60分钟的时间审查多达6个临床病例。
主要结果和测量 主要结果是基于差异诊断准确性、支持和反对因素的适当性以及下一步诊断评估步骤的标准评分表上的诊断推理表现,经过盲法专家共识验证和评分。次要结果包括每例病例的花费时间(秒)和最终诊断准确性。所有分析遵循意向治疗原则。探索性分析评估了大型语言模型独立使用的主要结果,将其与传统资源组进行比较。
结果 50名医生(26名主治医师,24名住院医师;中位执业年限3年[四分位数范围2-8])虚拟参与并在1个现场参与。大型语言模型组每例病例的中位诊断推理得分为76%(四分位数范围66%-87%),传统资源组为74%(四分位数范围63%-84%),调整后的差异为2个百分点(95%置信区间-4至8个百分点;P=0.60)。大型语言模型组每例病例的中位时间为519秒(四分位数范围371-668秒),传统资源组为565秒(四分位数范围456-788秒),时间差异为-82秒(95%置信区间-195至31秒;P=0.20)。大型语言模型独立使用时得分比传统资源组高16个百分点(95%置信区间2-30个百分点;P=0.03)。
结论和相关性 在本试验中,大型语言模型作为医生的诊断辅助工具并未显著改善临床推理,与传统资源相比。大型语言模型独立使用时表现出更高的性能,表明需要技术和劳动力发展,以实现医生与人工智能合作在临床实践中的潜力。
JAMA网络开放文章:大型语言模型对诊断推理的影响——随机临床试验(开放获取)
《纽约时报》文章:AI聊天机器人在诊断疾病方面超越医生(限制访问)
(全文结束)

