印第安纳州——一项发表在《BMJ Open》上的新研究向使用AI的患者发出了严厉警告:你口袋里的"医生"可能正在提供危险的错误信息。
研究人员测试了全球最受欢迎的五款AI模型——ChatGPT、Gemini、Grok、Meta AI和DeepSeek,通过提出50个涵盖癌症、疫苗和营养等话题的医学问题。结果显示,这些AI在提供准确健康数据方面存在系统性失败,独立专家标记了大约70%的回复存在问题。
该研究使用"压力测试"来检验聊天机器人是否会提供无根据的主张,或为早期癌症等严重诊断建议未经证实的替代诊所。
- 高失败率:近20%的回答被评定为"高度有问题"。
- 虚构引用:没有一款聊天机器人能够可靠地生成完全准确的参考列表。脚注经常指向不存在的研究或死链。
- 缺乏防护机制:尽管问题性质严重,但AI模型在250个查询中仅拒绝回答两个。
"最差表现者"
尽管所有聊天机器人的表现相似,但有些在准确性方面表现更差。埃隆·马斯克的Grok表现最差,58%的回答被标记,其次是ChatGPT(52%)和Meta AI(50%)。
| 主题类别 | 表现水平 | 原因 |
|---|---|---|
| 疫苗与癌症 | 最佳(但仍有25%有问题) | 临床研究结构庞大、体系完善 |
| 营养与运动 | 最差 | 网上相互矛盾的建议数量庞大,证据基础薄弱 |
该研究突显了医学界日益关注的AI幻觉问题——聊天机器人会生成自信但完全错误的信息。与人类医生不同,AI缺乏"常识",常常无法告诉用户他们的提问可能基于危险的前提。
安全使用AI获取健康信息
医疗专业人员建议,虽然AI可以作为一般健康素养的起点,但绝不应取代临床咨询。为了确保安全:
- 与可靠来源核实:将AI的主张与梅奥诊所、克利夫兰诊所或美国国立卫生研究院(NIH)等知名机构进行交叉验证。
- 检查URL:如果AI提供链接,请确保它指向.gov、.edu或同行评审的期刊。
- 咨询医生:在对治疗或饮食做出任何改变之前,务必向持证专业人士提出AI生成的问题。
随着行业向"Med-ALLLMs"(医学大语言模型)发展,研究人员希望看到更严格的防护机制,迫使聊天机器人在涉及改变生命的医疗建议时向人类专家求助。
【全文结束】

