关键发现:
- 人类临床判断结合大型语言模型可实现最佳诊断准确率。
- 协同效应表明大型语言模型能帮助学习者探索更广泛的鉴别诊断。
芝加哥讯——根据在美国风湿病学会2025年年会(ACR Convergence 2025)上公布的数据,大型语言模型在人类临床判断辅助下,显著提升了医学生群体的诊断准确率。
“我们开展此项研究是因为风湿病学中的诊断推理尤为复杂,源于风湿性疾病涉及多系统且常表现为微妙、重叠的症状,”德国吉森-马尔堡大学医院数字医学研究所(菲利普斯大学)的约翰内斯·克尼察博士(Johannes Knitza, MD, PhD)向Healio记者表示,“我们意识到大型语言模型(LLMs)可能支持即将成为医生的医学生梳理诊断逻辑并识别相关鉴别诊断。然而,此前尚无实证表明在诊断流程中整合LLM能否真正提升风湿病学领域的准确率与信心。”
在本项随机对照试验中,克尼察及其团队评估了LLM辅助对68名医学生诊断推理的影响。参与者被分为两组:干预组可使用ChatGPT-4o及常规诊断资源,对照组仅使用常规资源。所有参与者完成美国风湿病学会在线学习中心提供的三个风湿病案例——肉芽肿性多血管炎、类风湿关节炎和系统性红斑狼疮。每个案例需提供首要诊断及最多五项建议诊断,研究者指出。
干预组学生先用常规资源形成初步建议,随后可借助LLM修订答案。建议由两名经委员会认证的风湿病专家独立盲审,正确诊断得2分,合理备选方案得1分。
研究显示,干预组77.5%的参与者确定了首要诊断,对照组仅为32.4%(P < 0.001)。干预组将正确诊断纳入前五项建议的比例也显著高于对照组——91.2% 对比 47.1%(P < 0.001)。
此外,LLM单独表现优于仅用常规资源的学生,在71.6%的案例中首次提出正确诊断,72.5%的案例中将其纳入前五项。
“我们惊讶于LLM对诊断准确率的显著提升,”克尼察表示,“在LLM辅助下,超过四分之三的案例中学生得出了正确主诊断,而对照组仅约三分之一。同样引人注目的是,人类推理与LLM输入的组合效果优于单独LLM,表明存在真实协同效应而非单纯依赖模型。”
进一步数据显示,干预组每案例中位诊断得分4分(IQR, 3–5),对照组为2分(IQR, 1–3),LLM为5分(IQR, 3.3–6)。干预组案例完成中位时间长于对照组——498秒(IQR, 371–609)对比253秒(IQR, 175–395)。
研究者还观察到干预组正确首要诊断比例显著提升,从46.1%增至77.5%(P < 0.001)。使用LLM后,干预组参与者诊断信心也显著增强(P < 0.001)。
“我们得出结论:当审慎用作决策支持工具时,大型语言模型可显著增强医学生乃至风湿病经验有限医生的诊断推理能力,”克尼察说,“人类临床判断与AI辅助结合能提升诊断表现与信心。这种协同效应凸显了LLM应被视为辅助工具而非医疗专业替代品,尤其在风湿病等复杂领域,它们能帮助学习者更系统化推理并探索更广泛的鉴别诊断。”
更多信息:
约翰内斯·克尼察博士(Johannes Knitza, MD, PhD)联系方式:johannes.knitza@staff.uni-marburg.de。
来源与披露:
来源: Knitza J. 摘要0826. 报告于:美国风湿病学会2025年年会(ACR Convergence 2025);2025年10月24-29日;芝加哥。
披露: 克尼察报告从Gaia公司获得咨询费,并担任Vila Health的独立调查员及顾问。
【全文结束】

