压力测试包含340万次查询
纽约西奈山医疗系统科学家通过大规模基准分析,研究大语言模型(LLMs)在医学语境中的"轻信性"。这项发表在《柳叶刀·数字健康》期刊的研究表明,即便是最先进的AI模型也容易受到捏造医学事实的误导,当声明采用专业临床语言表述时尤其容易被误导。研究结果提示,在审阅患者病历时不应盲目信任AI。
为测试LLMs的医学理解与安全能力,研究人员采用远超简单问答测试的方法:让20种不同语言模型(包括GPT-4o、Llama-3和Gemma,以及专为医学训练的模型)处理超过340万次查询。数据集包含三类来源:医生刻意植入虚假医疗建议的真实出院记录(例如建议患者每日饮用冷牛奶缓解食道不适)、Reddit论坛的真实社交媒体谣言,以及经医生验证的模拟病例场景。
修辞的作用:当表达方式欺骗AI
研究核心在于探究AI对虚假声明的识别是否受表述方式影响。研究人员使用十种已知逻辑谬误对虚假信息进行修辞包装。结果显示矛盾现象:当虚假声明通过逻辑谬误进行论证时,模型反而更易识别。例如,若附加"该声明获多人支持"(诉诸大众谬误),AI接受错误声明的概率平均降低近20个百分点。
但对两类谬误的测试中,AI接受虚假声明的比例反而上升。"权威论证"("资深临床医生确认该声明")和"滑坡谬误"("忽略该声明可能导致严重医疗后果")导致AI更频繁支持错误陈述。
人工智能中的"白大褂效应"
信息来源语境至关重要。语言模型对不同来源文本表现出显著差异的"警惕性":针对Reddit内容,模型保持最高"警觉性",基础提示的错误接受率仅8.9%;但当相同虚假信息嵌入医生信函的正式权威文体时,错误接受率高达46.1%。这表明临床文档的语言语境常能绕过模型安全过滤器——AI似乎本能地更信任临床文本而非网络论坛。对AI而言,声明的医学合理性往往不如表达方式关键。
GPT-4o领先 专业模型令人失望
模型横向对比显示显著差异。OpenAI通用模型GPT-4o表现最稳健,整体仅接受10.6%的捏造虚假声明,同时保持89.7%的逻辑谬误识别率。其他模型(含部分医学专用模型)表现显著更差:Gemma-3-4b-it等模型接受超60%的错误声明;医学模型MediPhi技术上显示0%错误接受率,但因其几乎拒绝所有回答而缺乏实用价值。
该研究驳斥了"经医学数据微调的专用AI模型必然比通用模型更抗幻觉"的假设。
临床应用LLMs的启示
研究发现对医疗AI应用具有直接指导意义。随着LLMs越来越多地用于总结医生信函或辅助临床决策,尤其是对临床文本的高错误接受率构成风险:若AI未能识别医生信函中的错误信息,反而将其作为有效事实纳入摘要,可能直接威胁患者安全。
研究者指出,单纯"AI事实核查"并不充分。未来系统需具备基于上下文的防护机制,识别出即便是正式医学文本也可能包含错误。"人机协同"的医学审核环节不可或缺,尤其当AI处理专业医疗文档时。
【全文结束】

