AI诊断困境：研究揭示患者诊断中的重大缺陷 - AI与医疗健康

AI诊断困境：研究揭示患者诊断中的重大缺陷AI's Diagnostic Dilemma: Study Reveals Major Shortcomings in Patient Diagnosis - The Tech Edvocate

环球医讯 / AI与医疗健康来源：www.thetechedvocate.org美国 - 英语2026-05-18 06:48:49 - 阅读时长3分钟 - 1448字

马萨诸塞州总医院布莱根分院进行的一项开创性研究对21种大型语言模型在医疗诊断领域的表现进行了全面评估，结果显示这些AI系统超过80%的时间无法提供适当的鉴别诊断，尽管Grok 4、GPT-5等部分模型在最终诊断上准确率可达60%-90%，但初始诊断能力普遍薄弱，研究强调AI缺乏医疗决策所需的细致理解能力，必须在人类监督下使用，警示医疗界不应高估AI能力而应将其视为辅助工具，并指出未来需在算法优化、数据多样性和监管框架建设方面持续努力，确保患者安全和医疗质量不受影响。

马萨诸塞州总医院布莱根分院(Mass General Brigham)研究人员进行的一项开创性研究对21个大型语言模型(LLMs)在医疗诊断领域的表现进行了严格审查。研究结果揭示了一个令人震惊的现实：包括Claude、DeepSeek、Gemini、GPT和Grok等高级版本在内的这些AI系统，超过80%的时间无法提供适当的鉴别诊断。这引发了人们对AI在无人监督的临床环境中安全性和可靠性的重大担忧。

研究及其发现

这项对AI模型的全面评估重点考察了它们辅助初级患者诊断的能力——这是医疗保健的关键方面。研究人员发现，尽管最终诊断的成功率各不相同，有些模型的准确率在60%到90%以上，但初始诊断能力却令人震惊地低下。

表现最佳者：在测试的模型中，Grok 4、GPT-5、GPT-4.5、Claude 4.5 Opus、Gemini 3.0 Flash和Gemini 3.0 Pro脱颖而出，展现出在生成正确最终诊断方面的更好性能。
附加数据的影响：当这些模型补充了实验室结果和影像数据时，其准确性显著提高，这表明AI系统在拥有全面临床信息的情况下可能表现更好。

人类监督的必要性

参与此项研究的研究人员之一迈克尔·萨奇(Michael Succi)强调了AI在临床推理方面的固有局限性。他表示，尽管AI技术取得了进步，但这些系统缺乏有效医疗决策所需的细致理解能力。"AI尚未准备好在临床环境中独立运作，"萨奇指出，他主张采用"人在循环中"的方法。这种观点表明，虽然AI可以辅助医疗专业人员，但最终的诊断决策应仍由人类掌控。

专家对AI在医学中的意见

这些发现引发了医疗界的广泛关注。西班牙家庭和社区医学学会(Spanish Society of Family and Community Medicine)的代表苏珊娜·曼索·加西亚(Susana Manso García)强调了在依赖AI进行诊断时保持谨慎的重要性。她警告公众不要高估这些技术的能力，指出虽然AI可以成为一个有价值的工具，但它不应该取代医疗专业人员的批判性思维和专业知识。