医生与AI之间的认知脱节Why LLMs alone beat doctors, but doctors with LLMs don’t seem to improve.

环球医讯 / AI与医疗健康来源:www.psychologytoday.com美国 - 英语2024-10-03 06:00:00 - 阅读时长5分钟 - 2256字
一项新研究发现,尽管GPT-4在独立诊断测试中表现优于医生,但医生使用GPT-4时并未显著提升诊断准确性,揭示了医生与AI合作中的认知和功能障碍。
医生AI认知脱节诊断准确性GPT-4医学应用人机协作信任提示工程认知负荷
医生与AI之间的认知脱节

随着关于人工智能在医学中应用的争论持续进行,一项引人注目的新预印本研究已经发布。大型语言模型(LLMs)不仅证明了其作为临床医生辅助工具的潜力,还展示了其作为独立诊断工具的强大能力。这项新研究比较了使用传统资源的医生、使用GPT-4的医生以及单独使用GPT-4的诊断准确性。结果令人惊讶且有些不安:GPT-4在独立使用时的表现超过了两组医生,然而,当医生可以访问GPT-4时,他们的表现并没有显著提高。这究竟是为什么呢?似乎存在一个功能和认知上的脱节,这一问题挑战了AI在医疗实践中的整合。

关键点

  • 在诊断测试中,GPT-4的表现优于单独工作的医生,而医生使用GPT-4时几乎没有改善。
  • 障碍可能包括医生的怀疑态度、技能差距、认知负荷和不同的方法。
  • 医学成功需要信任、更好的AI整合和改进的人机协作。

研究的核心发现在于明显的对比。GPT-4在独立使用时,在诊断推理方面得分高达92.1%。相比之下,仅使用传统资源的医生在“诊断推理”方面的中位数得分为73.7%,而使用GPT-4作为辅助工具的医生得分略高,为76.3%。然而,当考察最终诊断准确性时,GPT-4在66%的病例中给出了正确的诊断,而医生的准确率为62%,尽管这一差异并不具有统计学意义。这一微小的改善表明,仅仅向医生提供先进的AI工具并不能保证性能的提升,这突显了人类临床医生与AI合作中的深层复杂性。

研究人员将“诊断推理”定义为对医生思维过程的全面评估,而不仅仅是最终诊断。这包括形成鉴别诊断、识别支持或反对每个潜在诊断的因素,以及确定下一步的诊断步骤。研究使用了一种“结构化反思”工具来捕捉这一过程,评分标准包括参与者提出合理诊断的能力、正确识别支持和反对发现的能力,以及选择适当的进一步评估。有趣的是,这种临床评分的评估指标与LLMs中日益流行的“思维链”方法有相似之处。

相比之下,“最终诊断准确性”专门衡量参与者是否得出了每个病例的最正确诊断。因此,在这个背景下,“诊断推理”涵盖了整个认知过程,而“最终诊断”则仅关注结果。

使用像GPT-4这样的LLMs的医生在诊断改进方面可能面临多种挑战,包括怀疑态度、不熟悉AI交互、认知负荷和不同的方法。弥合这一差距是充分利用LLMs进行医疗诊断的关键。让我们更详细地探讨这些挑战:

1. 信任与依赖:Eliza效应的反面

对AI的信任是一个复杂的现象。在某些情况下,用户可能会过度信任AI生成的见解,这种现象被称为Eliza效应,即我们对AI进行拟人化并高估其能力。然而,在临床环境中,可能会出现相反的效果。经过多年磨练诊断技巧的医生可能对模型的建议持怀疑态度,尤其是当这些建议与其临床直觉不符时。在这项研究中,一些临床医生可能忽略了或低估了LLM的输入,更倾向于依赖自己的判断。

他们的怀疑并非毫无道理。医生受过训练,会质疑和验证信息,这是防止诊断错误的关键技能。然而,这种固有的谨慎可能导致忽视潜在有用的AI驱动见解。因此,挑战在于建立一种信任桥梁,使AI工具被视为可靠的补充,而不是对临床专业知识的侵犯。

2. 提示工程的艺术

有趣的是,这项研究允许医生在没有明确培训的情况下使用GPT-4。在AI语言中,“提示工程”指的是以最大化LLM输出效用的方式构建输入查询。如果没有适当的培训,医生可能无法最优地制定向模型提出的问题,从而导致响应的相关性或可操作性较低。

GPT-4作为独立工具在本研究中的成功表明,当使用精确提示时,其诊断推理能力可以非常出色。然而,在现实世界的临床环境中,医生并不是AI专家;他们可能没有时间和经验来试验提示以获得最佳结果。不充分的提示工程成为有效利用AI进行临床决策的障碍。然而,更新的LLMs如OpenAI的o1实际上可能通过思维链(CoT)处理简化提示。

3. 认知负荷和工作流程整合

将LLM纳入诊断过程增加了额外的认知处理层。医生不仅需要解释模型的输出,还需要将其与自己的临床知识整合。这引入了认知负担,尤其是在繁忙的临床环境中时间受限的情况下。评估、验证和整合LLM建议所需的额外心理努力可能导致次优使用或直接忽略其输入。

临床推理的效率取决于无缝的工作流程。如果将GPT-4整合到诊断过程中会使工作流程复杂化而不是简化,它将成为一种阻碍而非帮助。解决这一障碍需要重新设计AI如何呈现给医生以及如何被医生利用,确保其自然地融入他们的决策过程。

4. 诊断方法的差异:人类细微差别与模式匹配

医生依赖于细微的临床判断,这是一种结合了经验、患者背景和难以严格模式化的微妙线索的方法。另一方面,LLMs擅长模式识别和数据合成。当模型的建议与医生的诊断方法或叙述不一致时,可能会倾向于认为AI的输入无关紧要或不正确。

这种方法上的差异代表了一种认知脱节。虽然LLMs可以高效地匹配模式,但它们可能缺乏人类医生重视的情境特定细微差别。相反,医生可能会因为LLM看似僵硬或陌生的推理路径而忽视其有价值的见解。

朝着更好的人机协作迈进

这项研究揭示了一个关键见解:即使是最强大的AI工具,如果不解决医生与AI合作中的认知和功能脱节,也可能无法提高临床表现。为了造福医学,不仅仅是获得先进的工具,而是如何将这些工具整合到临床推理中。这可能需要培训、改进用户界面和建立对AI能力的信任。

最终,AI在医学中的前景在于增强而不是取代人类专业知识。弥合LLMs与医生之间的差距需要理解人类认知和AI功能,以创建一种共生关系,从而提升患者护理质量。


(全文结束)

大健康

猜你喜欢

  • ChatGPT 在脑肿瘤诊断准确性上与放射科医生相当ChatGPT 在脑肿瘤诊断准确性上与放射科医生相当
  • AI代理如何革新医疗保健AI代理如何革新医疗保健
  • 医生(和AI)将为您诊治:临床医生如何利用AI增强信任医生(和AI)将为您诊治:临床医生如何利用AI增强信任
  • AI 在脑瘤诊断中超越放射科医生AI 在脑瘤诊断中超越放射科医生
  • 建立新中心以弥合人工智能技术与医疗保健应用之间的差距建立新中心以弥合人工智能技术与医疗保健应用之间的差距
  • UMass Chan与韩国韩林大学合作开发用于农村脑出血患者的AI工具UMass Chan与韩国韩林大学合作开发用于农村脑出血患者的AI工具
  • 在癌症诊断中建立信任并消除偏见的AI在癌症诊断中建立信任并消除偏见的AI
  • Michelle Mello 分析 AI 诊断工具如何给患者带来经济负担Michelle Mello 分析 AI 诊断工具如何给患者带来经济负担
  • 新加坡南洋理工大学与国家医疗集团联合成立中心 推动医疗领域的人工智能发展新加坡南洋理工大学与国家医疗集团联合成立中心 推动医疗领域的人工智能发展
  • 2024年全球医疗保健行业AI、区块链、云计算和数据分析市场分析报告2024年全球医疗保健行业AI、区块链、云计算和数据分析市场分析报告
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康