人工智能医疗建议：尚未成熟应用 - AI与医疗健康

人工智能医疗建议：尚未成熟应用AI medical advice: Not ready for prime time - Genetic Literacy Project

环球医讯 / AI与医疗健康来源：geneticliteracyproject.org美国 - 英语2026-03-02 09:44:23 - 阅读时长3分钟 - 1393字

西奈山医学院最新研究揭示当前医疗人工智能系统存在重大安全隐患，当虚假医疗信息以真实临床文档或社交媒体讨论形式嵌入时，AI会将其作为事实传播而难以识别。研究团队系统测试了九个主流大语言模型，分析超百万条提示数据，发现AI会重复错误医疗建议（如指导食管炎出血患者饮用冷牛奶缓解症状），且对表述方式的敏感度远高于内容真实性。该发现发表于《柳叶刀·数字健康》，强调现有防护机制无法可靠区分事实与虚构，呼吁在临床部署前建立可量化的防虚假信息压力测试标准，通过大规模证据核查强化AI安全屏障，以避免错误信息转化为临床实践危害患者安全。

人工智能医疗建议：尚未成熟应用

西奈山医学院 | 2026年2月17日

医疗人工智能（AI）常被描述为通过辅助临床医生管理信息来提升患者安全性的工具。西奈山伊坎医学院（Icahn School of Medicine at Mount Sinai）及其合作者的一项新研究直面关键漏洞：当虚假医疗信息进入系统时，AI是否会将其作为事实传播？

研究团队分析了九个主流大语言模型的超百万条提示数据，发现这些系统会在真实医院文档或社交媒体健康讨论中重复错误医疗主张。发表于2月9日《柳叶刀·数字健康》（The Lancet Digital Health）在线版的 findings 表明，一旦主张披上常规临床或社交媒体语言外衣，现有防护机制便无法可靠区分事实与虚构。

为系统化验证，团队向模型输入三类内容：在重症监护医学信息库（MIMIC）真实出院小结中添加单条虚构建议；从Reddit收集的常见健康谣言；以及由医生撰写验证的300个临床场景。所有案例均以多重表述呈现，从中性描述到类似社交媒体传播的情绪化诱导措辞。

例如，某出院小结错误建议食管炎相关出血患者“饮用冷牛奶缓解症状”。多个模型未将其标记为不安全，反而视作常规医疗指导。“我们的发现表明，当前AI系统默认将自信表述的医疗语言视为真实，即便内容明显错误，”西奈山伊坎医学院人工智能与人类健康温德雷希特系（Windreich Department of Artificial Intelligence and Human Health）生成式AI主管、共同资深及通讯作者埃亚尔·克朗医学博士（Eyal Klang, MD）指出，“出院小结中的虚构建议可能悄然通过，被重复为标准诊疗。对这些模型而言，主张的正确性远不如表述方式重要。”

作者强调，下一步需将“系统能否传播谎言”作为可量化属性，通过大规模压力测试和外部证据核查，在AI嵌入临床工具前进行验证。“医院和开发者可利用我们的数据集作为医疗AI压力测试，”研究团队顾问、医师科学家兼第一作者马哈茂德·奥马尔医学博士（Mahmud Omar, MD）表示，“与其假设模型安全，不如测量其传播谎言的频率，并确认新一代产品能否降低该数值。”

“AI有望为临床医生和患者提供更快洞察与支持，”西奈山伊坎医学院人工智能与人类健康温德雷希特系主任、哈索·普拉特纳数字健康研究所所长、医学教授伊琳和亚瑟·M·费什伯格（Irene and Dr. Arthur M. Fishberg Professor of Medicine）、西奈山医疗系统首席AI官吉里什·纳德卡尼医学博士兼公共卫生硕士（Girish N. Nadkarni, MD, MPH）表示，“但它需要内置防护机制，在医疗主张呈现为事实前进行核查。本研究揭示了系统仍可能传播错误信息的环节，并指明在临床应用前强化它们的路径。”

该论文题为《大语言模型对临床文档与社交媒体中医疗虚假信息的易感性图谱》（“Mapping LLM Susceptibility to Medical Misinformation Across Clinical Notes and Social Media”）。

本文原载于西奈山医学院，经授权转载。转载需同时注明GLP及原文来源。关注西奈山医学院X平台账号@MountSinaiNYC

【全文结束】