随着关于人工智能在医学中应用的争论持续进行,一项引人注目的新预印本研究已经发布。大型语言模型(LLMs)不仅证明了其作为临床医生辅助工具的潜力,还展示了其作为独立诊断工具的强大能力。这项新研究比较了使用传统资源的医生、使用GPT-4的医生以及单独使用GPT-4的诊断准确性。结果令人惊讶且有些不安:GPT-4在独立使用时的表现超过了两组医生,然而,当医生可以访问GPT-4时,他们的表现并没有显著提高。这究竟是为什么呢?似乎存在一个功能和认知上的脱节,这一问题挑战了AI在医疗实践中的整合。
关键点
- 在诊断测试中,GPT-4的表现优于单独工作的医生,而医生使用GPT-4时几乎没有改善。
- 障碍可能包括医生的怀疑态度、技能差距、认知负荷和不同的方法。
- 医学成功需要信任、更好的AI整合和改进的人机协作。
研究的核心发现在于明显的对比。GPT-4在独立使用时,在诊断推理方面得分高达92.1%。相比之下,仅使用传统资源的医生在“诊断推理”方面的中位数得分为73.7%,而使用GPT-4作为辅助工具的医生得分略高,为76.3%。然而,当考察最终诊断准确性时,GPT-4在66%的病例中给出了正确的诊断,而医生的准确率为62%,尽管这一差异并不具有统计学意义。这一微小的改善表明,仅仅向医生提供先进的AI工具并不能保证性能的提升,这突显了人类临床医生与AI合作中的深层复杂性。
研究人员将“诊断推理”定义为对医生思维过程的全面评估,而不仅仅是最终诊断。这包括形成鉴别诊断、识别支持或反对每个潜在诊断的因素,以及确定下一步的诊断步骤。研究使用了一种“结构化反思”工具来捕捉这一过程,评分标准包括参与者提出合理诊断的能力、正确识别支持和反对发现的能力,以及选择适当的进一步评估。有趣的是,这种临床评分的评估指标与LLMs中日益流行的“思维链”方法有相似之处。
相比之下,“最终诊断准确性”专门衡量参与者是否得出了每个病例的最正确诊断。因此,在这个背景下,“诊断推理”涵盖了整个认知过程,而“最终诊断”则仅关注结果。
使用像GPT-4这样的LLMs的医生在诊断改进方面可能面临多种挑战,包括怀疑态度、不熟悉AI交互、认知负荷和不同的方法。弥合这一差距是充分利用LLMs进行医疗诊断的关键。让我们更详细地探讨这些挑战:
1. 信任与依赖:Eliza效应的反面
对AI的信任是一个复杂的现象。在某些情况下,用户可能会过度信任AI生成的见解,这种现象被称为Eliza效应,即我们对AI进行拟人化并高估其能力。然而,在临床环境中,可能会出现相反的效果。经过多年磨练诊断技巧的医生可能对模型的建议持怀疑态度,尤其是当这些建议与其临床直觉不符时。在这项研究中,一些临床医生可能忽略了或低估了LLM的输入,更倾向于依赖自己的判断。
他们的怀疑并非毫无道理。医生受过训练,会质疑和验证信息,这是防止诊断错误的关键技能。然而,这种固有的谨慎可能导致忽视潜在有用的AI驱动见解。因此,挑战在于建立一种信任桥梁,使AI工具被视为可靠的补充,而不是对临床专业知识的侵犯。
2. 提示工程的艺术
有趣的是,这项研究允许医生在没有明确培训的情况下使用GPT-4。在AI语言中,“提示工程”指的是以最大化LLM输出效用的方式构建输入查询。如果没有适当的培训,医生可能无法最优地制定向模型提出的问题,从而导致响应的相关性或可操作性较低。
GPT-4作为独立工具在本研究中的成功表明,当使用精确提示时,其诊断推理能力可以非常出色。然而,在现实世界的临床环境中,医生并不是AI专家;他们可能没有时间和经验来试验提示以获得最佳结果。不充分的提示工程成为有效利用AI进行临床决策的障碍。然而,更新的LLMs如OpenAI的o1实际上可能通过思维链(CoT)处理简化提示。
3. 认知负荷和工作流程整合
将LLM纳入诊断过程增加了额外的认知处理层。医生不仅需要解释模型的输出,还需要将其与自己的临床知识整合。这引入了认知负担,尤其是在繁忙的临床环境中时间受限的情况下。评估、验证和整合LLM建议所需的额外心理努力可能导致次优使用或直接忽略其输入。
临床推理的效率取决于无缝的工作流程。如果将GPT-4整合到诊断过程中会使工作流程复杂化而不是简化,它将成为一种阻碍而非帮助。解决这一障碍需要重新设计AI如何呈现给医生以及如何被医生利用,确保其自然地融入他们的决策过程。
4. 诊断方法的差异:人类细微差别与模式匹配
医生依赖于细微的临床判断,这是一种结合了经验、患者背景和难以严格模式化的微妙线索的方法。另一方面,LLMs擅长模式识别和数据合成。当模型的建议与医生的诊断方法或叙述不一致时,可能会倾向于认为AI的输入无关紧要或不正确。
这种方法上的差异代表了一种认知脱节。虽然LLMs可以高效地匹配模式,但它们可能缺乏人类医生重视的情境特定细微差别。相反,医生可能会因为LLM看似僵硬或陌生的推理路径而忽视其有价值的见解。
朝着更好的人机协作迈进
这项研究揭示了一个关键见解:即使是最强大的AI工具,如果不解决医生与AI合作中的认知和功能脱节,也可能无法提高临床表现。为了造福医学,不仅仅是获得先进的工具,而是如何将这些工具整合到临床推理中。这可能需要培训、改进用户界面和建立对AI能力的信任。
最终,AI在医学中的前景在于增强而不是取代人类专业知识。弥合LLMs与医生之间的差距需要理解人类认知和AI功能,以创建一种共生关系,从而提升患者护理质量。
(全文结束)

