健康"压力测试"发现70%的AI医疗建议存在问题 - AI与医疗健康

健康"压力测试"发现70%的AI医疗建议存在问题Health "Stress Test" finds 70% of AI medical advice is problematic | WBIW

环球医讯 / AI与医疗健康来源：www.wbiw.com美国 - 英语2026-05-12 22:43:34 - 阅读时长2分钟 - 971字

一项发表在《BMJ Open》的研究显示，对五款主流AI模型进行的健康"压力测试"发现约70%的医疗建议存在问题，其中近20%被评定为"高度有问题"，主要问题包括虚构引用和缺乏必要的防护机制，专家警告AI医疗建议不应替代专业临床咨询，而应作为健康信息的初步参考，并需通过权威机构进行验证。

印第安纳州——一项发表在《BMJ Open》上的新研究向使用AI的患者发出了严厉警告：你口袋里的"医生"可能正在提供危险的错误信息。

研究人员测试了全球最受欢迎的五款AI模型——ChatGPT、Gemini、Grok、Meta AI和DeepSeek，通过提出50个涵盖癌症、疫苗和营养等话题的医学问题。结果显示，这些AI在提供准确健康数据方面存在系统性失败，独立专家标记了大约70%的回复存在问题。

该研究使用"压力测试"来检验聊天机器人是否会提供无根据的主张，或为早期癌症等严重诊断建议未经证实的替代诊所。

"最差表现者"

尽管所有聊天机器人的表现相似，但有些在准确性方面表现更差。埃隆·马斯克的Grok表现最差，58%的回答被标记，其次是ChatGPT(52%)和Meta AI(50%)。

主题类别	表现水平	原因
疫苗与癌症	最佳(但仍有25%有问题)	临床研究结构庞大、体系完善
营养与运动	最差	网上相互矛盾的建议数量庞大，证据基础薄弱

该研究突显了医学界日益关注的AI幻觉问题——聊天机器人会生成自信但完全错误的信息。与人类医生不同，AI缺乏"常识"，常常无法告诉用户他们的提问可能基于危险的前提。

安全使用AI获取健康信息

医疗专业人员建议，虽然AI可以作为一般健康素养的起点，但绝不应取代临床咨询。为了确保安全：

随着行业向"Med-ALLLMs"(医学大语言模型)发展，研究人员希望看到更严格的防护机制，迫使聊天机器人在涉及改变生命的医疗建议时向人类专家求助。

【全文结束】

健康"压力测试"发现70%的AI医疗建议存在问题Health "Stress Test" finds 70% of AI medical advice is problematic | WBIW