医学虚假声明:AI模型更信任医生而非社交媒体Medical False Statements: AI Models Trust Doctors More Than Social Media | heise online

环球医讯 / AI与医疗健康来源:www.heise.de德国 - 英语2026-03-01 18:22:47 - 阅读时长3分钟 - 1342字
纽约西奈山医疗系统科学家通过340万次查询测试20种大语言模型对医学虚假信息的识别能力,发现当虚假声明采用临床专业语言表述时,模型错误接受率高达46.1%,而社交媒体来源的错误接受率仅8.9%,其中权威论证和滑坡谬误最易误导AI,GPT-4o表现最佳但仍有10.6%误判率,研究强调医疗AI必须建立基于上下文的防护机制并保留人工审核环节以确保患者安全。
医学虚假声明AI模型医生信任社交媒体LLMs轻信性临床文本白大褂效应逻辑谬误GPT-4o医疗AI应用人机协同
医学虚假声明:AI模型更信任医生而非社交媒体

压力测试包含340万次查询

纽约西奈山医疗系统科学家通过大规模基准分析,研究大语言模型(LLMs)在医学语境中的"轻信性"。这项发表在《柳叶刀·数字健康》期刊的研究表明,即便是最先进的AI模型也容易受到捏造医学事实的误导,当声明采用专业临床语言表述时尤其容易被误导。研究结果提示,在审阅患者病历时不应盲目信任AI。

为测试LLMs的医学理解与安全能力,研究人员采用远超简单问答测试的方法:让20种不同语言模型(包括GPT-4o、Llama-3和Gemma,以及专为医学训练的模型)处理超过340万次查询。数据集包含三类来源:医生刻意植入虚假医疗建议的真实出院记录(例如建议患者每日饮用冷牛奶缓解食道不适)、Reddit论坛的真实社交媒体谣言,以及经医生验证的模拟病例场景。

修辞的作用:当表达方式欺骗AI

研究核心在于探究AI对虚假声明的识别是否受表述方式影响。研究人员使用十种已知逻辑谬误对虚假信息进行修辞包装。结果显示矛盾现象:当虚假声明通过逻辑谬误进行论证时,模型反而更易识别。例如,若附加"该声明获多人支持"(诉诸大众谬误),AI接受错误声明的概率平均降低近20个百分点。

但对两类谬误的测试中,AI接受虚假声明的比例反而上升。"权威论证"("资深临床医生确认该声明")和"滑坡谬误"("忽略该声明可能导致严重医疗后果")导致AI更频繁支持错误陈述。

人工智能中的"白大褂效应"

信息来源语境至关重要。语言模型对不同来源文本表现出显著差异的"警惕性":针对Reddit内容,模型保持最高"警觉性",基础提示的错误接受率仅8.9%;但当相同虚假信息嵌入医生信函的正式权威文体时,错误接受率高达46.1%。这表明临床文档的语言语境常能绕过模型安全过滤器——AI似乎本能地更信任临床文本而非网络论坛。对AI而言,声明的医学合理性往往不如表达方式关键。

GPT-4o领先 专业模型令人失望

模型横向对比显示显著差异。OpenAI通用模型GPT-4o表现最稳健,整体仅接受10.6%的捏造虚假声明,同时保持89.7%的逻辑谬误识别率。其他模型(含部分医学专用模型)表现显著更差:Gemma-3-4b-it等模型接受超60%的错误声明;医学模型MediPhi技术上显示0%错误接受率,但因其几乎拒绝所有回答而缺乏实用价值。

该研究驳斥了"经医学数据微调的专用AI模型必然比通用模型更抗幻觉"的假设。

临床应用LLMs的启示

研究发现对医疗AI应用具有直接指导意义。随着LLMs越来越多地用于总结医生信函或辅助临床决策,尤其是对临床文本的高错误接受率构成风险:若AI未能识别医生信函中的错误信息,反而将其作为有效事实纳入摘要,可能直接威胁患者安全。

研究者指出,单纯"AI事实核查"并不充分。未来系统需具备基于上下文的防护机制,识别出即便是正式医学文本也可能包含错误。"人机协同"的医学审核环节不可或缺,尤其当AI处理专业医疗文档时。

【全文结束】

猜你喜欢
  • ChatGPT等AI模型轻信社交媒体医疗错误信息 研究警告ChatGPT等AI模型轻信社交媒体医疗错误信息 研究警告
  • 诊断与实验室医学协会呼吁联邦政府支持公平医疗人工智能诊断与实验室医学协会呼吁联邦政府支持公平医疗人工智能
  • 孟加拉国研究人员推进人工智能驱动的癌症检测孟加拉国研究人员推进人工智能驱动的癌症检测
  • 医疗保健在AI成熟度方面有待提升的五个衡量指标医疗保健在AI成熟度方面有待提升的五个衡量指标
  • 纽约大学朗格尼健康中心推出医疗AI平台NYUTron纽约大学朗格尼健康中心推出医疗AI平台NYUTron
  • 深入探讨AI基础模型在脑部MRI中的潜力深入探讨AI基础模型在脑部MRI中的潜力
  • 人工智能数字孪生、AI智能体与生物传感器技术的最新趋势人工智能数字孪生、AI智能体与生物传感器技术的最新趋势
  • 新框架将医学知识、实践、程序和价值观纳入医疗保健中的人工智能应用新框架将医学知识、实践、程序和价值观纳入医疗保健中的人工智能应用
  • 萨特健康将人工智能决策支持融入医疗工作流程萨特健康将人工智能决策支持融入医疗工作流程
  • 研究表明人工智能在提供医疗建议方面并不优于其他方法研究表明人工智能在提供医疗建议方面并不优于其他方法
热点资讯
全站热点
全站热文