国内健康环球医讯家医百科药品库医药资讯

医疗实践中人工智能幻觉的隐性风险

The Hidden Risk of AI Hallucinations in Medical Practice | Annals of Family Medicine

西班牙英语人工智能与医疗健康
新闻源:unknown
2025-10-11 19:05:59阅读时长4分钟1554字
医疗实践人工智能幻觉健康风险全科医生诊断治疗效率提升监督负担伦理法律独立验证谨慎整合

内容摘要

本文由西班牙全科医生与独立研究者联名致信,深刻剖析大语言模型在医疗诊断中的"幻觉"风险——相较于法律领域易识别的虚构案例,医疗幻觉如临床指南误置、错误剂量或杜撰副作用更难被忙碌医生即时察觉,可能导致危及生命的误诊;作者通过真实案例指出,此类系统生成看似合理却存在事实偏差的内容时,其"逼真性"反而降低警惕性,呼吁在追求AI提升效率的同时必须建立严格验证机制,坚守"首先,不伤害"的医学伦理原则,分阶段谨慎整合AI工具并强化专业监督,避免技术部署速度超越安全防护建设。

尊敬的编辑:

我们以西班牙全科医生和独立研究者的身份致信,双方均深度参与医疗实践中人工智能(AI)应用的持续讨论。我们的共同观点源于多年基层医疗临床经验,并致力于探索技术创新如何更好地服务患者与医护人员。近期ChatGPT或Gemini等大语言模型(LLMs)的进展令我们既期待其变革医疗的潜力,同时也对系统可靠性及潜在风险深感忧虑——尤其当这些技术被整合至医学诊断和治疗规划等敏感环节时。

近期备受关注的核心问题是所谓"幻觉"现象:当大语言模型生成看似合理却事实错误或完全虚构的内容时,即发生此类情况。法律领域已有法官遭遇虚构判例或误用案例的典型案例,其问题可经由法律数据库核查。但医疗领域面临更严峻的威胁:忙碌的全科医生在高压诊疗中,临床指南误置、错误剂量或杜撰副作用等细微失误可能不会立即引发警觉。这种风险在复杂诊断场景中尤为突出,实时决策往往关乎生死。

我们已观察到多起科学文献虚构引用的警示案例(7,8),此类错误通常在查阅真实期刊后易于识别。当AI编造作者姓名或混淆出版细节时,尽管令人担忧,但通过严谨的来源核查即可发现。更具隐蔽性的是那些模仿合理结论却遗漏关键细节的微妙扭曲(9)。例如,大语言模型可能声称某影像检查是特定病症的"金标准",实则引用残缺或过时的证据,而非完全编造研究报告。这种逼真表象会降低警惕性,使我们更可能接受AI建议而缺乏应有的严格审查。《柳叶刀数字健康》上利布伦兹团队及《放射学》期刊比斯瓦斯的近期评论均强调,此类幻觉引发的伦理与临床挑战远超学术便利性范畴。

对全科医生而言,基于大语言模型工具的吸引力在于提升效率的潜力。AI驱动的应用承诺实现快速广域的文献整合,理论上可帮助医生更高效决策。库恩等人的开创性研究甚至提出,这些模型可通过快速生成复杂主题摘要、为医学生提供即时辅导来强化医学教育。负责任实施时,AI无疑能解锁新层级的效率(13),例如秒级提供第二诊疗意见,或从电子健康记录中识别人眼难以察觉的模式(14,15)。

然而作为实践与研究者,我们更担忧的是监督这些工具的实际负担。原则上,诊断支持系统应通过提供可靠建议减轻工作量。但当医生意识到大语言模型可能产生不易察觉的幻觉时,必须逐一验证每条陈述、引用和建议。这种 heightened 的警惕需求反而可能使AI应用比传统方式更耗时,尤其在整合初期。在诊疗时间本就紧张、行政任务持续增加的时代,持续核查海量AI输出可能弊大于利。

此外,我们对AI融入医疗流程的独立研究表明,全科医生可能承担不成比例的监督负荷。基层医疗需覆盖儿科、老年医学、慢性病管理及心理健康等广泛领域。大语言模型无法同时成为所有领域的全能专家而不时失误,而人类仅能通过细致分析发现此类疏漏。尽管AI能识别人脑忽略的相关性,同样可能凭空创造它们。这种潜力与"黑箱"式失误的危险混合,凸显专家监督的重要性,但监督本身又要求额外培训、深化对AI能力局限的认知(16),并拓展现行执业标准。

更需审慎考量伦理与法律影响:当医生采纳大语言模型提出的错误诊断时,责任归属问题仍未解决。专业指南与监管框架虽已开始调整,但进程仍处初期。我们与同行的交流显示,集体担忧在于:出于成本效益或技术进步热情而仓促部署AI解决方案,可能超越健全防护机制的发展速度。真正的风险是未经"故障安全"机制筛查细微错误即全面采用,最终导致患者伤害。

综上,我们主张平衡之道:既要全力拥抱AI提升效率与分析能力的前景,也须坚定不移地坚持独立验证与临床判断。作为西班牙专业人士(一位奋战在全科医疗一线,另一位从应用研究视角观察这些变革),我们坚信这些关切必须在科学文献与临床实践指南中透明表达。我们担忧在技术采纳的急切中,忽略"首先,不伤害"的根本原则。我们期待通过持续研究(如检验大语言模型在医学考试与专业诊断任务中的表现)不断暴露弱点以提升系统可靠性。同时倡导在医疗实践中谨慎分阶段整合AI工具,即使最细微环节也始终伴随受训专业人士的严密监督。

【全文结束】

声明:本文仅代表作者观点,不代表本站立场。

本页内容撰写过程部分涉及AI生成(包括素材的搜集与翻译),请注意甄别。

7日热榜