健康"压力测试"发现70%的AI医疗建议存在问题Health "Stress Test" finds 70% of AI medical advice is problematic | WBIW

环球医讯 / AI与医疗健康来源:www.wbiw.com美国 - 英语2026-05-12 22:43:34 - 阅读时长2分钟 - 971字
一项发表在《BMJ Open》的研究显示,对五款主流AI模型进行的健康"压力测试"发现约70%的医疗建议存在问题,其中近20%被评定为"高度有问题",主要问题包括虚构引用和缺乏必要的防护机制,专家警告AI医疗建议不应替代专业临床咨询,而应作为健康信息的初步参考,并需通过权威机构进行验证。
AI医疗建议健康压力测试AI幻觉医疗信息安全Med-LLMs癌症疫苗营养运动临床咨询可靠健康来源
健康"压力测试"发现70%的AI医疗建议存在问题

印第安纳州——一项发表在《BMJ Open》上的新研究向使用AI的患者发出了严厉警告:你口袋里的"医生"可能正在提供危险的错误信息。

研究人员测试了全球最受欢迎的五款AI模型——ChatGPT、Gemini、Grok、Meta AI和DeepSeek,通过提出50个涵盖癌症、疫苗和营养等话题的医学问题。结果显示,这些AI在提供准确健康数据方面存在系统性失败,独立专家标记了大约70%的回复存在问题。

该研究使用"压力测试"来检验聊天机器人是否会提供无根据的主张,或为早期癌症等严重诊断建议未经证实的替代诊所。

  • 高失败率:近20%的回答被评定为"高度有问题"。
  • 虚构引用:没有一款聊天机器人能够可靠地生成完全准确的参考列表。脚注经常指向不存在的研究或死链。
  • 缺乏防护机制:尽管问题性质严重,但AI模型在250个查询中仅拒绝回答两个。

"最差表现者"

尽管所有聊天机器人的表现相似,但有些在准确性方面表现更差。埃隆·马斯克的Grok表现最差,58%的回答被标记,其次是ChatGPT(52%)和Meta AI(50%)。

主题类别 表现水平 原因
疫苗与癌症 最佳(但仍有25%有问题) 临床研究结构庞大、体系完善
营养与运动 最差 网上相互矛盾的建议数量庞大,证据基础薄弱

该研究突显了医学界日益关注的AI幻觉问题——聊天机器人会生成自信但完全错误的信息。与人类医生不同,AI缺乏"常识",常常无法告诉用户他们的提问可能基于危险的前提。

安全使用AI获取健康信息

医疗专业人员建议,虽然AI可以作为一般健康素养的起点,但绝不应取代临床咨询。为了确保安全:

  • 与可靠来源核实:将AI的主张与梅奥诊所、克利夫兰诊所或美国国立卫生研究院(NIH)等知名机构进行交叉验证。
  • 检查URL:如果AI提供链接,请确保它指向.gov、.edu或同行评审的期刊。
  • 咨询医生:在对治疗或饮食做出任何改变之前,务必向持证专业人士提出AI生成的问题。

随着行业向"Med-ALLLMs"(医学大语言模型)发展,研究人员希望看到更严格的防护机制,迫使聊天机器人在涉及改变生命的医疗建议时向人类专家求助。

【全文结束】

猜你喜欢
  • AI医生聊天可能正在害死你AI医生聊天可能正在害死你
  • 迈克尔·戴尔与苏珊·戴尔10亿美元投资推动AI驱动医院革命,重塑医疗保健迈克尔·戴尔与苏珊·戴尔10亿美元投资推动AI驱动医院革命,重塑医疗保健
  • 高剂量流感疫苗与降低痴呆症风险相关高剂量流感疫苗与降低痴呆症风险相关
  • 超过6600万美国人使用人工智能进行医疗保健的原因超过6600万美国人使用人工智能进行医疗保健的原因
  • 卫生官员对AI聊天机器人向患者提供的癌症治疗替代方案表示担忧卫生官员对AI聊天机器人向患者提供的癌症治疗替代方案表示担忧
  • 阿拉伯海湾大学将于11月举办人工智能在医疗保健领域最新应用国际会议阿拉伯海湾大学将于11月举办人工智能在医疗保健领域最新应用国际会议
  • 尼日利亚在全球儿童镰状细胞病病例中居首尼日利亚在全球儿童镰状细胞病病例中居首
  • 当人工智能开始扮演医生:规范医疗保健中的自主型系统当人工智能开始扮演医生:规范医疗保健中的自主型系统
  • 黑皮书研究:克罗地亚医疗IT从数字化转向执行黑皮书研究:克罗地亚医疗IT从数字化转向执行
  • 德国应推进欧盟健康数据空间、电子病历和EUDI钱包建设德国应推进欧盟健康数据空间、电子病历和EUDI钱包建设
热点资讯
全站热点
全站热文