美国研究人员发现,将大型语言模型(LLM)整合到医疗实践中并不能显著提高医生的诊断推理能力,相比传统资源并无明显优势。这项由斯坦福大学及其他机构的研究团队进行并发表在《JAMA Network Open》上的研究,揭示了将人工智能(AI)融入临床环境的复杂性,表明仅凭先进技术不足以改善医疗结果。
研究概览
该试验涉及50名接受过家庭医学、内科和急诊医学培训的医生。参与者被分为两组:一组可以访问LLM,具体为ChatGPT Plus(GPT-4),同时使用传统的诊断资源;另一组则仅依赖传统工具。他们被要求在60分钟内审查临床快照并做出诊断决策。主要评估指标是通过一个工具测量的诊断表现,该工具评估了鉴别诊断的准确性、支持和反对因素的适当性以及下一步诊断评估的步骤。次要指标包括每例病例的花费时间和最终诊断的准确性。
关键发现
结果令人意外。LLM组的中位诊断推理得分为76%,而传统资源组的得分为74%。这2个百分点的差异并不具有统计学意义,表明LLM并未在诊断推理方面提供显著优势。此外,LLM组每例病例的花费时间略低,但这一差异也不显著。有趣的是,当独立评估LLM时,它在两个医生组中均表现出色,取得了92%的中位得分。这一发现引发了关于AI在医疗决策中的角色以及LLM在有效使用时增强诊断过程的潜力的重要问题。
(全文结束)

