关键发现:
- 大语言模型在鉴别诊断环节表现更佳,但医生在最终诊断准确率上占优
- 人类与AI在各项指标上的差异均无统计学显著性
巴尔的摩讯——梅奥诊所睡眠医学部临床研究员Anshum Patel博士在美国神经病学协会年会上报告:针对小型临床案例集的分析显示,三种大语言模型在诊断准确性方面并未优于三名经认证的睡眠专科医生。
Patel指出:“人工智能是执行通常需要人类智能任务的系统。”他解释机器学习作为AI子集,使系统能直接从数据中识别模式,正如医学生通过数千次患者接触学习诊断模式;而深度学习作为机器学习的子集,利用复杂神经网络分析MRI等复杂医学数据;大语言模型(LLMs)则属于深度学习范畴,通过文本数据训练实现语言处理能力。
“那么问题在于,LLMs能否像医生一样进行病例推理?”Patel提出疑问。研究团队对比了三名拥有8至17年经验的睡眠专科医生与ChatGPT-4、Gemini 2.0、DeepSeek三大模型对美国睡眠医学会(AASM)2019年《睡眠医学案例集》16个多样化案例的诊断准确性。
主要评估指标为:各AI系统与AASM标准鉴别诊断列表的匹配百分比均值;次要指标为最终诊断准确率(采用0-2分Likert量表,0分“无匹配”,2分“完全匹配”,最终转换为准确率百分比)。
在鉴别诊断环节,Gemini 2.0准确率最高(77.7%),其次为ChatGPT-4(76.9%)和DeepSeek(70.7%);三名人类专家的匹配率分别为70.8%(48/70)、74.3%(52/70)、73.5%(50/70),平均72.9%。
针对AASM睡眠相关案例的最终诊断,三大模型均达到87.5%的准确率,而医生组整体为90.6%(医师A 81.2%;医师B 93.7%;医师C 96.9%)。
研究团队强调,受限于小样本量和快速迭代的技术特性,人类与AI在两项指标上的差异均无统计学显著性。Patel表示:“LLMs的表现与医生相当,可作为临床决策的有力辅助工具。”他建议未来研究应聚焦实时诊断微调与数据集构建,使医生能按需调取LLMs信息。同时指出:“持续改进的LLMs正快速接近性能平台期,它们将增强而非替代临床推理能力。”
研究来源:
Patel A等. 人工智能在睡眠医学中的应用:探索大语言模型诊断准确性. 美国神经病学协会年会报告;2025年9月13-16日;巴尔的摩
【全文结束】

