大语言模型在诊断准确性上不优于睡眠科医生Large language models nonsuperior to sleep physicians in diagnostic accuracy

环球医讯 / AI与医疗健康来源:www.healio.com美国 - 英语2025-10-10 00:24:18 - 阅读时长3分钟 - 1010字
梅奥诊所研究团队在美国神经病学协会年会上公布最新成果,通过对16个临床案例的对比分析,发现ChatGPT-4、Gemini 2.0和DeepSeek三大语言模型在鉴别诊断环节表现略优,但在最终诊断准确率上(87.5%)仍略低于三名睡眠专科医生(90.6%),且统计学差异不显著;研究强调大语言模型可作为临床决策辅助工具快速提升诊疗效率,但无法替代医生的专业判断,未来需通过实时诊断微调和数据集构建进一步优化其临床应用价值。
大语言模型睡眠科医生诊断准确性睡眠医学案例鉴别诊断最终诊断准确率人工智能临床决策辅助健康睡眠疾病诊断
大语言模型在诊断准确性上不优于睡眠科医生

关键发现:

  • 大语言模型在鉴别诊断环节表现更佳,但医生在最终诊断准确率上占优
  • 人类与AI在各项指标上的差异均无统计学显著性

巴尔的摩讯——梅奥诊所睡眠医学部临床研究员Anshum Patel博士在美国神经病学协会年会上报告:针对小型临床案例集的分析显示,三种大语言模型在诊断准确性方面并未优于三名经认证的睡眠专科医生。

Patel指出:“人工智能是执行通常需要人类智能任务的系统。”他解释机器学习作为AI子集,使系统能直接从数据中识别模式,正如医学生通过数千次患者接触学习诊断模式;而深度学习作为机器学习的子集,利用复杂神经网络分析MRI等复杂医学数据;大语言模型(LLMs)则属于深度学习范畴,通过文本数据训练实现语言处理能力。

“那么问题在于,LLMs能否像医生一样进行病例推理?”Patel提出疑问。研究团队对比了三名拥有8至17年经验的睡眠专科医生与ChatGPT-4、Gemini 2.0、DeepSeek三大模型对美国睡眠医学会(AASM)2019年《睡眠医学案例集》16个多样化案例的诊断准确性。

主要评估指标为:各AI系统与AASM标准鉴别诊断列表的匹配百分比均值;次要指标为最终诊断准确率(采用0-2分Likert量表,0分“无匹配”,2分“完全匹配”,最终转换为准确率百分比)。

在鉴别诊断环节,Gemini 2.0准确率最高(77.7%),其次为ChatGPT-4(76.9%)和DeepSeek(70.7%);三名人类专家的匹配率分别为70.8%(48/70)、74.3%(52/70)、73.5%(50/70),平均72.9%。

针对AASM睡眠相关案例的最终诊断,三大模型均达到87.5%的准确率,而医生组整体为90.6%(医师A 81.2%;医师B 93.7%;医师C 96.9%)。

研究团队强调,受限于小样本量和快速迭代的技术特性,人类与AI在两项指标上的差异均无统计学显著性。Patel表示:“LLMs的表现与医生相当,可作为临床决策的有力辅助工具。”他建议未来研究应聚焦实时诊断微调与数据集构建,使医生能按需调取LLMs信息。同时指出:“持续改进的LLMs正快速接近性能平台期,它们将增强而非替代临床推理能力。”

研究来源:

Patel A等. 人工智能在睡眠医学中的应用:探索大语言模型诊断准确性. 美国神经病学协会年会报告;2025年9月13-16日;巴尔的摩

【全文结束】

大健康

猜你喜欢

  • 青年时期(20-30岁)的健康习惯对后期心脏病和中风风险有显著影响青年时期(20-30岁)的健康习惯对后期心脏病和中风风险有显著影响
  • 精神分裂症的体征与症状精神分裂症的体征与症状
  • 人工智能扫描舌色预测疾病人工智能扫描舌色预测疾病
  • 医生警告痴呆症早期征兆可能出现在四肢医生警告痴呆症早期征兆可能出现在四肢
  • 肠道微生物群变化可能影响自身免疫性胃炎相关神经内分泌肿瘤的生长肠道微生物群变化可能影响自身免疫性胃炎相关神经内分泌肿瘤的生长
  • 脑内出血 | 神经病学脑内出血 | 神经病学
  • 全科医生指出痴呆症记忆丧失前可能出现四种早期症状全科医生指出痴呆症记忆丧失前可能出现四种早期症状
  • 脑内出血脑内出血
  • 专家称前列腺癌血液检测可能导致男性过度检测专家称前列腺癌血液检测可能导致男性过度检测
  • 运动性热射病:医生必须了解的知识运动性热射病:医生必须了解的知识
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康