马萨诸塞州总医院布莱根分院(Mass General Brigham)研究人员进行的一项开创性研究对21个大型语言模型(LLMs)在医疗诊断领域的表现进行了严格审查。研究结果揭示了一个令人震惊的现实:包括Claude、DeepSeek、Gemini、GPT和Grok等高级版本在内的这些AI系统,超过80%的时间无法提供适当的鉴别诊断。这引发了人们对AI在无人监督的临床环境中安全性和可靠性的重大担忧。
研究及其发现
这项对AI模型的全面评估重点考察了它们辅助初级患者诊断的能力——这是医疗保健的关键方面。研究人员发现,尽管最终诊断的成功率各不相同,有些模型的准确率在60%到90%以上,但初始诊断能力却令人震惊地低下。
- 表现最佳者:在测试的模型中,Grok 4、GPT-5、GPT-4.5、Claude 4.5 Opus、Gemini 3.0 Flash和Gemini 3.0 Pro脱颖而出,展现出在生成正确最终诊断方面的更好性能。
- 附加数据的影响:当这些模型补充了实验室结果和影像数据时,其准确性显著提高,这表明AI系统在拥有全面临床信息的情况下可能表现更好。
人类监督的必要性
参与此项研究的研究人员之一迈克尔·萨奇(Michael Succi)强调了AI在临床推理方面的固有局限性。他表示,尽管AI技术取得了进步,但这些系统缺乏有效医疗决策所需的细致理解能力。"AI尚未准备好在临床环境中独立运作,"萨奇指出,他主张采用"人在循环中"的方法。这种观点表明,虽然AI可以辅助医疗专业人员,但最终的诊断决策应仍由人类掌控。
专家对AI在医学中的意见
这些发现引发了医疗界的广泛关注。西班牙家庭和社区医学学会(Spanish Society of Family and Community Medicine)的代表苏珊娜·曼索·加西亚(Susana Manso García)强调了在依赖AI进行诊断时保持谨慎的重要性。她警告公众不要高估这些技术的能力,指出虽然AI可以成为一个有价值的工具,但它不应该取代医疗专业人员的批判性思维和专业知识。
AI在医疗保健中的角色
随着人工智能的不断发展,其在医疗保健领域的潜在应用非常广泛。AI可用于数据管理、患者监测甚至辅助治疗建议等任务。然而,最近的这项研究强调了对其诊断能力保持现实期望的必要性。
- 补充工具:AI不应被视为取代人类临床医生的工具,而应被视为增强决策过程的补充工具。
- 培训与教育:必须对医疗专业人员进行如何有效将AI整合到实践中的教育,确保他们仍然是患者护理的最终决策者。
展望未来:AI在诊断领域的前景
这项研究的结果对AI技术开发者和医疗提供者都敲响了警钟。随着AI继续融入医疗实践,持续的研究和测试对于提高其准确性和可靠性至关重要。未来的工作必须集中在:
- 增强算法:开发更复杂的算法,以更好地模拟人类临床推理。
- 数据多样性:确保AI模型在多样化数据集上进行训练,以提高其在不同人群和医疗条件下的适用性。
- 监管框架:为临床环境中AI的使用建立明确的指导方针和法规,以确保患者安全和道德标准。
结论
马萨诸塞州总医院布莱根分院的这项研究突显了将AI整合到初级患者诊断中面临的重大挑战。虽然这项技术前景广阔,但目前的局限性强调了在临床环境中保留人类监督的必要性。随着研究人员和开发者致力于增强AI能力,医疗界必须以敏锐的眼光看待这些工具,确保患者护理仍然是首要任务。
【全文结束】

