美国国立卫生研究院(NIH)研究人员发现,人工智能(AI)模型在解答旨在测试医疗从业者临床影像诊断能力的医学测试题时展现出高度准确率。然而,医生评审发现该AI模型在描述影像特征及解释诊断推理过程时频繁出错——即便最终诊断结果正确。
这项发表于《npj数字医学》的研究由NIH国家医学图书馆(NLM)与康奈尔大学威尔医学院联合开展。NLM代理主任Stephen Sherry博士指出:"人工智能在辅助医疗诊断领域具有提升诊疗效率的潜力,但本研究证明其尚未达到替代人类专业判断的能力。"
研究团队让GPT-4V多模态AI模型(可同时处理文字与图像的生成式预训练模型)解答《新英格兰医学杂志》影像挑战题库中的207道病例题。该题库包含真实临床影像及患者症状描述,要求答题者通过多选方式确定诊断结果。AI需提供包含影像描述、医学知识总结及推理过程的完整诊断报告。
来自不同医学专科的九位医师参与测试:在"闭卷"(禁止使用外部资源)和"开卷"(允许查阅资料)两种环境下分别作答后,医师们需对AI的诊断报告进行评估。结果显示:
- AI与医师群体均保持较高诊断准确率
- 在闭卷测试中,AI正确率高于人类医师
- 开卷环境下医师表现更优,尤其在高难度病例上优势显著
值得关注的是,医师评审发现AI在影像描述和推理过程存在系统性缺陷。典型案例显示:面对同一患者手臂上呈现不同角度的两处皮损,人类医师能立即判断为同一病因,而AI因误判颜色/形态差异导致无法识别病灶关联性。
NLM高级研究员、研究通讯作者卢志勇博士强调:"这项技术具有通过数据洞察辅助临床决策的潜力,但理解其局限性对医学应用至关重要。"研究团队特别指出,虽然GPT-4V展现出专家级诊断准确率,但其"黑箱"决策过程可能导致潜在医疗风险,强调在医疗场景部署前需进行更严谨的多模态AI技术评估。
参与机构包括NIH国家眼科研究所、临床中心,匹兹堡大学,德州大学西南医学中心,纽约大学医学院,哈佛医学院及麻省总医院,凯斯西储大学,加州大学圣地亚哥分校,阿肯色大学等。
【全文结束】

