费城的一间医疗检查室。一项小规模研究发现,ChatGPT在评估医疗病历时的表现优于人类医生,即使这些医生也在使用聊天机器人。《纽约时报》
亚当·罗德曼博士是波士顿贝斯以色列女执事医疗中心的内科专家,他自信地认为,基于人工智能构建的聊天机器人将帮助医生诊断疾病。然而,他错了。
相反,在罗德曼参与设计的一项研究中,使用了ChatGPT-4和传统资源的医生仅比没有使用机器人的医生表现稍好一些。令研究人员惊讶的是,单独使用的ChatGPT表现超过了医生。
罗德曼说:“我非常震惊。”
来自OpenAI公司的聊天机器人在从病例报告中诊断医疗状况并解释其推理过程时,平均得分达到90%。随机分配使用聊天机器人的医生平均得分为76%,而未使用机器人的医生平均得分为74%。
这项研究不仅展示了聊天机器人的优越性能,还揭示了医生有时对诊断结果的固执,即使聊天机器人可能提出了更好的诊断建议。
罗德曼表示,这项研究还表明,尽管医生正在接触用于工作的AI工具,但很少有人知道如何充分利用聊天机器人的能力。因此,他们未能利用AI系统解决复杂诊断问题并解释其诊断的能力。
“AI系统应该是医生的辅助工具,”罗德曼说,“提供有价值的第二意见。”但要实现这一潜力还有很长的路要走。
案例历史,未来案例
该实验涉及50名医生,包括通过几家大型美国医院系统招募的住院医生和主治医生,研究结果上个月发表在《JAMA Network Open》杂志上。
测试对象被给予了六个病例史,并根据他们提出诊断和解释为何支持或排除这些诊断的能力进行评分。他们的评分还包括最终诊断是否正确。
评分者是医学专家,他们只看到参与者提供的答案,而不知道这些答案是来自使用ChatGPT的医生、未使用ChatGPT的医生还是单独使用的ChatGPT。
研究中使用的病例史基于真实患者,是自1990年代以来研究人员一直在使用的一组105个病例的一部分。这些病例有意从未发表过,以便医学学生和其他人可以在没有任何先验知识的情况下进行测试。这也意味着ChatGPT不可能接受过这些病例的训练。
为了说明研究的内容,调查人员发布了一个医生被测试的六个病例之一,以及该病例的测试问题答案,其中包括一个高分医生和一个低分医生的答案。
这个测试病例涉及一名76岁的患者,他在行走时感到剧烈的腰痛、臀部和小腿疼痛。这种疼痛在他接受冠状动脉球囊扩张术治疗几天后开始。术后48小时内,他接受了肝素抗凝治疗。
患者抱怨自己发烧和疲劳。他的心脏病专家进行了实验室检查,结果显示新发贫血和血液中氮和其他肾脏废物产物的积累。这名患者十年前因心脏病接受过搭桥手术。
病例描述继续提供了患者的体格检查细节,然后提供了他的实验室检查结果。
正确的诊断是胆固醇栓塞,这是一种胆固醇碎片从动脉斑块中脱落并阻塞血管的情况。
参与者被要求提供三个可能的诊断及其支持证据。他们还被要求提供每个可能诊断的不支持发现或预期但未出现的发现。
参与者还被要求提供最终诊断。然后,他们需要命名在诊断过程中将采取的最多三个额外步骤。
就像已发布的病例诊断一样,研究中其他五个病例的诊断也不容易得出。但它们并不罕见到几乎闻所未闻。然而,医生的平均表现却不如聊天机器人。
研究人员问,这是怎么回事?
答案似乎在于医生如何确定诊断以及他们如何使用像人工智能这样的工具的问题。
机器中的医生
那么,医生是如何诊断患者的呢?
布里格姆妇女医院的医学史学家安德鲁·李博士并未参与这项研究,他表示:“我们真的不知道医生是如何思考的。”
在描述他们如何得出诊断时,医生会说“直觉”或“基于我的经验”,李博士说。
这种模糊性已经困扰了研究人员数十年,因为他们试图制作可以像医生一样思考的计算机程序。
这一探索始于近70年前。“自从有了计算机,就有人尝试用它们来做出诊断,”李博士说。
最雄心勃勃的尝试之一始于1970年代的匹兹堡大学。那里的计算机科学家招募了杰克·迈尔斯博士,他是医学院内科系主任,以其出色的诊断能力而闻名。他有照相记忆,每周花20小时在医学图书馆,试图了解医学领域的所有知识。
迈尔斯被给予病例的医学细节,并解释了他在考虑诊断时的推理过程。计算机科学家将其逻辑链转换为代码。最终生成的程序名为INTERNIST-1,包括超过500种疾病和约3500种症状。
为了测试它,研究人员给它提供了《新英格兰医学杂志》上的病例。“计算机表现非常好,”罗德曼说。他补充道:“它的表现可能比人类更好。”
但INTERNIST-1从未普及。它使用起来很困难,需要一个多小时才能输入足够的信息来进行诊断。而且,其创建者指出,“目前形式的程序还不足以用于临床应用。”
研究继续进行。到1990年代中期,大约有六种试图做出医疗诊断的计算机程序。但没有一种得到广泛应用。
“这不仅仅是用户友好性的问题,医生还必须信任它,”罗德曼说。
随着对医生思维方式的不确定性,专家们开始质疑是否应该关心。尝试设计计算机程序以像人类一样进行诊断有多重要?
“关于计算机程序应多大程度模仿人类推理存在争论,”李博士说。“为什么不发挥计算机的优势呢?”计算机可能无法清楚地解释其决策路径,但如果它能正确诊断,这重要吗?
随着大型语言模型如ChatGPT的出现,这一对话发生了变化。这些模型并没有明确尝试复制医生的思维方式;它们的诊断能力来自于预测语言的能力。
“聊天界面是杀手级应用程序,”斯坦福大学的医师兼计算机科学家陈宗汉博士是这项新研究的作者之一,他说。“我们可以将整个病例输入计算机。几年前,计算机还不理解语言。”
但许多医生可能并未充分利用其潜力。
操作错误
在对这项新研究的结果感到震惊之后,罗德曼决定深入挖掘数据,查看医生与ChatGPT之间的实际消息日志。医生一定看到了聊天机器人的诊断和推理,那么为什么使用聊天机器人的医生表现并不更好呢?
事实证明,当聊天机器人指出与医生诊断不符的内容时,医生往往不会被说服。相反,他们倾向于坚持自己的诊断。
鹿特丹伊拉斯谟医学中心的临床推理和诊断错误研究者劳拉·佐万博士并未参与这项研究,她说:“人们通常在认为自己正确时过于自信。”
但还有一个问题:许多医生不知道如何充分利用聊天机器人。
陈博士说,当他查看医生的聊天记录时,发现“他们将其当作搜索引擎来使用,提出定向问题:‘肝硬化是癌症的风险因素吗?眼痛的可能诊断是什么?’”
“只有一部分医生意识到他们可以将整个病例史直接复制粘贴到聊天机器人中,并要求它提供全面的答案,”陈博士补充道。“只有一部分医生实际上看到了聊天机器人能够产生的令人惊讶的智能和全面的答案。”
(C)2024《纽约时报公司》
(全文结束)

