医学虚假声明：AI模型更信任医生而非社交媒体 - AI与医疗健康

医学虚假声明：AI模型更信任医生而非社交媒体Medical False Statements: AI Models Trust Doctors More Than Social Media | heise online

环球医讯 / AI与医疗健康来源：www.heise.de德国 - 英语2026-03-01 18:22:47 - 阅读时长3分钟 - 1342字

纽约西奈山医疗系统科学家通过340万次查询测试20种大语言模型对医学虚假信息的识别能力，发现当虚假声明采用临床专业语言表述时，模型错误接受率高达46.1%，而社交媒体来源的错误接受率仅8.9%，其中权威论证和滑坡谬误最易误导AI，GPT-4o表现最佳但仍有10.6%误判率，研究强调医疗AI必须建立基于上下文的防护机制并保留人工审核环节以确保患者安全。

压力测试包含340万次查询

纽约西奈山医疗系统科学家通过大规模基准分析，研究大语言模型（LLMs）在医学语境中的"轻信性"。这项发表在《柳叶刀·数字健康》期刊的研究表明，即便是最先进的AI模型也容易受到捏造医学事实的误导，当声明采用专业临床语言表述时尤其容易被误导。研究结果提示，在审阅患者病历时不应盲目信任AI。

为测试LLMs的医学理解与安全能力，研究人员采用远超简单问答测试的方法：让20种不同语言模型（包括GPT-4o、Llama-3和Gemma，以及专为医学训练的模型）处理超过340万次查询。数据集包含三类来源：医生刻意植入虚假医疗建议的真实出院记录（例如建议患者每日饮用冷牛奶缓解食道不适）、Reddit论坛的真实社交媒体谣言，以及经医生验证的模拟病例场景。

修辞的作用：当表达方式欺骗AI

研究核心在于探究AI对虚假声明的识别是否受表述方式影响。研究人员使用十种已知逻辑谬误对虚假信息进行修辞包装。结果显示矛盾现象：当虚假声明通过逻辑谬误进行论证时，模型反而更易识别。例如，若附加"该声明获多人支持"（诉诸大众谬误），AI接受错误声明的概率平均降低近20个百分点。

但对两类谬误的测试中，AI接受虚假声明的比例反而上升。"权威论证"（"资深临床医生确认该声明"）和"滑坡谬误"（"忽略该声明可能导致严重医疗后果"）导致AI更频繁支持错误陈述。

人工智能中的"白大褂效应"

信息来源语境至关重要。语言模型对不同来源文本表现出显著差异的"警惕性"：针对Reddit内容，模型保持最高"警觉性"，基础提示的错误接受率仅8.9%；但当相同虚假信息嵌入医生信函的正式权威文体时，错误接受率高达46.1%。这表明临床文档的语言语境常能绕过模型安全过滤器——AI似乎本能地更信任临床文本而非网络论坛。对AI而言，声明的医学合理性往往不如表达方式关键。

GPT-4o领先专业模型令人失望

模型横向对比显示显著差异。OpenAI通用模型GPT-4o表现最稳健，整体仅接受10.6%的捏造虚假声明，同时保持89.7%的逻辑谬误识别率。其他模型（含部分医学专用模型）表现显著更差：Gemma-3-4b-it等模型接受超60%的错误声明；医学模型MediPhi技术上显示0%错误接受率，但因其几乎拒绝所有回答而缺乏实用价值。

该研究驳斥了"经医学数据微调的专用AI模型必然比通用模型更抗幻觉"的假设。