一项令人担忧的研究发现,像ChatGPT这样的大型语言模型虽在医疗保健领域日益普及,但当虚假医疗声明在医疗记录和社交媒体讨论中呈现得足够真实时,这些模型会予以接受。
专家警告,当被要求诊断医疗症状时,人工智能无法区分细微差别,可能导致患者获得错误反馈,带来各种潜在危害。
理解人工智能诊断的局限性
我们都经历过这种情况——发现神秘疼痛或无法解释的皮疹后,直接求助"谷歌医生":输入轻微咳嗽,三次点击后就确信自己患上了罕见热带疾病。
据IOL报道,在数字疑病症时代,搜索结果往往引发更多恐慌而非安心,如今咨询已从搜索栏转向ChatGPT等高级AI工具。
凭借冷静权威的语气和秒级处理海量数据的能力,人们容易将这些机器人视为随身医疗专家。然而科技巨头自身正呼吁谨慎——谷歌近期因回应不准确而从搜索结果中移除多个AI生成的健康摘要。
ChatGPT创建者OpenAI也在医疗相关交互底部明确声明:"ChatGPT可能出错。请核查重要信息。本工具不用于医疗诊断或治疗。"
发表在***《柳叶刀数字健康》的研究指出,当错误医疗信息以专业语言表述时,领先AI系统会错误重复这些内容,据Euronews***报道。
该研究分析超100万个提示,核心问题是:当虚假医疗陈述表述可信时,模型会重复还是拒绝?
研究人员表示,尽管AI有潜力为医患提供快速支持,但必须建立内置安全机制,在将医疗声明呈现为事实前进行核查。"本研究揭示了这些系统传播虚假信息的漏洞,并指明了在临床应用前强化系统的路径。"
纽约Mount Sinai Health System的研究团队测试了20种大型语言模型,涵盖OpenAI的ChatGPT、Meta的Llama、Google的Gemma、阿里巴巴的Qwen、微软的Phi及Mistral AI模型,以及多款医疗微调版本。
AI模型被输入三类虚假信息:篡改的真实医院记录、Reddit健康谣言及模拟医疗场景。测试显示,所有模型约32%时间会采信编造信息,但表现差异显著——初级模型错误接受率超60%,而ChatGPT-4o等先进系统仅10%。
研究还发现,医疗专用微调模型的表现普遍逊于通用版本。"当前AI系统默认将专业表述的医疗语言视为真实,即使明显错误,"Mount Sinai Icahn医学院的共同资深作者Eyal Klang指出,"对这些模型而言,关键不在于声明是否正确,而在于表述方式。"
虚假声明与危害后果
研究人员警告,Reddit评论中某些被AI接受的提示可能伤害患者。至少三款模型采信了"孕妇服用泰诺可致自闭症"、"直肠塞大蒜增强免疫系统"、"乳房X光检查因'挤压'组织导致乳腺癌"及"番茄稀释血液效果等同处方抗凝剂"等谬误。
在另一起案例中,伪造的出院记录建议食道炎出血患者"饮用冷牛奶缓解症状"。多款模型未标记此危险建议,反而将其视为常规医疗指导。
模型如何应对逻辑谬误
研究还测试了模型对逻辑谬误的反应——表面合理但推理错误的论点,如"众人都信即为真"(诉诸流行)。总体而言,这类表述使模型更易质疑信息。
但两种特定谬误反而降低模型警惕性:诉诸权威(含"专家称此为真"的虚假声明被接受34.6%)和滑坡谬误("若X发生则灾难降临"类陈述被接受33.9%)。
后续行动方向
研究团队建议将"能否传递谎言"作为可量化指标,在AI整合临床工具前实施大规模压力测试和外部证据核查。"医院和开发者可用我们的数据集进行医疗AI压力测试,"第一作者Mahmud Omar表示,"与其假设模型安全,不如测量其传播谎言的频率,并监测下一代产品的改进。"
人类"健康拼图"能力
Mediclinic Morningside的全科医生Jess Morris博士指出,AI虽是获取基础信息的优秀起点,却缺乏真实诊断所需的"健康拼图"能力。依赖AI的最大风险不仅是获得错误答案,更是得到"虚假健康确认"。
AI无法像医疗专家那样个性化解读血压趋势、胆固醇谱或糖尿病前期风险。"这既可能造成无谓焦虑,也可能产生错误安心感,延误关键治疗时机,"Morris强调。
她列举了"AI医生"无法精准解答的三大常见问题:
我是否高血压?
这一"无声杀手"最难通过聊天机器人自诊。高血压常无明显症状直至危险阶段。"当出现胸痛、视力模糊等症状时,患者可能已陷入高血压危象,"Morris解释,"单次测量或在线参考值无法反映血压昼夜波动及中风风险。"建议:每年至少两次专业24小时血压监测。
我该担忧胆固醇水平吗?
AI能说明"正常范围",却不知你的个体情况。"许多血脂异常者直到心梗发作前都感觉良好,"Morris指出,"医生会结合体重、年龄及糖尿病等综合评估,决定你需要沙拉还是药片。"建议:有家族史者16岁起筛查,否则30岁后每年检查。
我是糖尿病前期吗?
此灰色地带常使AI失准。轻度高血糖不必然发展为糖尿病,但绝非"安全区"。"该阶段通常无症状,需HbA1C等检测数月血糖趋势,"Morris说明,"临床医生须结合体重变化和运动量制定逆转方案。"
将AI用作地图,而非目的地
AI是理解医学术语和药物原理的卓越工具,能帮助患者向医生提出优质问题,但无法替代临床判断。"检验结果只是健康拼图的碎片,而非孤立答案,"Morris强调,"理解自身健康没有捷径,必须与能全面评估状况的专业医疗人员对话。"
研究详情
《在临床记录与社交媒体中评估大型语言模型对医疗错误信息的易感性:横断面基准分析》
Mahmud Omar, Vera Sorin, Carol Horowitz 等
2026年1月发表于*《柳叶刀数字健康》*
摘要
背景
大型语言模型(LLMs)在医疗领域应用日广,却仍易受错误信息影响。本研究旨在评估模型接受/拒绝伪造医疗内容的频率,及逻辑谬误表述对结果的影响。
方法
通过超340万次提示测试20种LLM,内容源自三类渠道:公共论坛对话、篡改的真实医院记录及300例经医师验证的模拟病例。采用逻辑谬误(如诉诸权威、流行或情感)测试修辞框架对模型的影响。每提示以中性形式测试一次,另以十种逻辑谬误形式各测十次,记录模型接受错误声明的易感性及谬误识别能力。
发现
所有模型对基础提示的易感率为31.7%(158,000例中50,108例)。八类谬误框架显著降低或维持该比率,尤以诉诸流行效果最著(易感率11.9%,降幅19.8个百分点);仅滑坡谬误(33.9%)和诉诸权威(34.6%)轻微提升易感率。真实医院记录伪造元素引发最高易感性(46.1%),而社交媒体错误信息仅8.9%。模型表现差异显著:GPT系列最稳健且谬误识别最佳,Gemma-3-4B-it等模型易感率高达63.6%。
解读
结果表明LLM仍会吸收有害医疗伪造信息,尤其当表述具临床权威性时;反常的是,多数逻辑谬误框架反而降低其脆弱性。提升安全性关键不在模型规模,而在基于事实核查和情境感知的防护机制。
【全文结束】

