随着关于人工智能在医学中应用的争论不断升温,一项新的预印本研究已经发布。大型语言模型(LLMs)不仅证明了其作为临床医生辅助工具的潜力,还展示了其作为独立诊断工具的强大能力。这项新研究比较了使用传统资源的医生、使用GPT-4的医生以及单独使用GPT-4的诊断准确性。结果令人惊讶且有些不安:GPT-4的表现超过了两组医生,但在医生可以访问GPT-4的情况下,他们的表现并没有显著提高。这是为什么呢?似乎存在一种功能和认知上的脱节,这挑战了AI在医疗实践中的整合。
临床医生未能充分利用LLMs
研究的核心发现在于一个鲜明的对比。GPT-4在独立使用时的诊断推理得分为92.1%。相比之下,仅使用传统资源的医生在“诊断推理”方面的中位得分仅为73.7%,而使用GPT-4作为辅助工具的医生得分略高,为76.3%。然而,在最终诊断准确性方面,GPT-4在66%的病例中给出了正确的诊断,而医生的正确率为62%,尽管这一差异并不具有统计学意义。这一微小的改进表明,仅仅提供先进的AI工具并不能保证医生的表现提升,这突显了人类临床医生与AI合作中的深层复杂性。
作者定义了“诊断推理”为全面评估医生的思维过程,而不仅仅是最终诊断。这包括制定鉴别诊断、识别支持或反对每个潜在诊断的因素,以及确定下一步的诊断步骤。研究使用了“结构化反思”工具来捕捉这一过程,评分标准包括提出合理诊断的能力、正确识别支持和反对发现的能力以及选择适当的进一步评估。有趣的是,这种临床评分的评估方法与LLMs中流行的链式思维(Chain of Thought)方法有相似之处。
相比之下,“最终诊断准确性”专门衡量参与者是否得出了每个病例的最正确诊断。因此,在这个上下文中,“诊断推理”涵盖了整个认知过程,而“最终诊断”则仅关注结果。
使用LLMs如GPT-4的医生可能由于怀疑、不熟悉AI交互、认知负荷和不同的方法而在诊断改进上遇到困难。弥合这一差距是充分发挥LLMs在医学诊断中的关键。让我们更详细地探讨一下:
1. 信任与依赖:逆向的Eliza效应
对AI的信任是一个复杂的现象。在某些情况下,用户可能会过度信任AI生成的见解,即所谓的Eliza效应,我们将AI拟人化并高估其能力。然而,在临床环境中,可能会出现相反的效果。经过数年磨练诊断技能的医生可能对模型的建议持怀疑态度,尤其是当这些建议与其临床直觉不符时。在这项研究中,一些临床医生可能忽略了或低估了LLM的输入,更倾向于依赖自己的判断。
这种怀疑并非毫无根据。医生受训质疑和验证信息,这是防止诊断错误的关键技能。然而,这种固有的谨慎可能导致忽视潜在有用的AI驱动的见解。因此,挑战在于建立一种信任桥梁,使AI工具被视为可靠的补充,而不是对临床专业知识的侵扰。
2. 提示工程的艺术
有趣的是,这项研究允许医生使用GPT-4,但没有提供如何有效与其互动的明确培训。在AI语言中,“提示工程”指的是以最大化LLM输出效用的方式构建输入查询。如果没有适当的培训,医生可能无法最优地构建他们的问题,导致响应的相关性和可操作性降低。
GPT-4作为独立工具在这项研究中的成功表明,当使用精确的提示时,其诊断推理能力可以非常出色。然而,在现实的临床环境中,医生不是AI专家;他们可能没有时间和经验去尝试提示以获得最佳结果。不充分的提示工程成为有效利用AI进行临床决策的障碍。然而,更新的LLMs如OpenAI的o1可能通过链式思维(CoT)处理简化提示。
3. 认知负荷和工作流程整合
将LLM纳入诊断过程增加了额外的认知处理层。医生不仅要解释模型的输出,还要将其与自己的临床知识整合。这引入了认知负担,尤其是在繁忙的临床环境中时间受限的情况下。评估、验证和整合LLM建议所需的额外心理努力可能导致次优使用或直接忽略其输入。
临床推理的效率取决于无缝的工作流程。如果将GPT-4纳入诊断过程使工作流程复杂化而非简化,它将成为一种阻碍而非帮助。解决这一障碍需要重新设计AI如何呈现给医生以及如何被医生利用,确保其自然地融入他们的决策过程。
4. 诊断方法的差异:人类细腻的判断与模式匹配
医生依赖于细腻的临床判断,这是一种结合了经验、患者背景和难以严格模式化的细微线索的综合判断。相反,LLMs擅长模式识别和数据合成。当模型的建议与医生的诊断方法或叙述不一致时,医生可能会倾向于认为AI的输入无关紧要或不正确。
这种方法的差异代表了一种认知脱节。虽然LLMs可以高效地匹配模式,但它们可能缺乏人类临床医生重视的情境特定细微差别。反之,医生可能会因为LLM看似僵化或陌生的推理路径而忽视其有价值的见解。
朝着更好的人机协作迈进
这项研究揭示了一个关键见解:即使是最强大的AI工具,如果不解决医生与AI合作中的认知和功能脱节,也可能无法提高临床表现。为了造福医学,不仅仅是获得先进工具的问题,而是这些工具如何整合到临床推理中。这可能需要培训、优化用户界面和建立对AI能力的信任。
最终,AI在医学中的前景在于增强而非替代人类专业知识。弥合LLMs与临床医生之间的差距需要理解人类认知和AI功能,以创建一种共生关系,从而提高患者护理质量。
(全文结束)

