虚假术语的警示
当放射科医生检查脑部扫描时,会注意到基底神经节(basal ganglia)的异常。这个区域负责运动控制、学习和情感处理。虽然名称与供给脑干血液的基底动脉(basilar artery)相似,但经验丰富的医生能明确区分。前者病变通常采用截然不同的治疗方案。
然而当医生使用AI模型进行诊断时,问题随之而来。谷歌医疗AI Med-Gemini模型曾错误表述"基底神经节梗塞",这个完全不存在的医学术语被收录在2024年研究论文中。神经学家Bryan Moore发现该错误后,谷歌仅在博客中低调更正术语,但核心论文始终未修改。尽管谷歌将其归咎为"拼写错误",但医疗专家指出这暴露了医疗AI的系统性风险。
技术隐患的现实映射
作为能生成放射科报告、分析电子病历的AI系统,Med-Gemini曾展示"发现"被人类医生遗漏的异常案例。但其示例中提及的"左侧基底神经节陈旧性梗死",本质上是虚构的病理现象。该模型目前虽处于试点阶段,但已引发行业对AI医疗事故的深度担忧。
这种风险正在扩大:当Emory大学Judy Gichoya教授用相同X光片但不同提问方式测试MedGemma模型时,AI在简化提问时竟将气腹症(pneumoperitoneum)误判为正常。这种随提问方式变化的诊断结果,凸显当前医疗AI的不稳定性。
人机协同的挑战
普罗维登斯医疗系统首席医学信息官Maulin Shah指出:"两个字母之差意味着生死攸关。"他主张医疗AI应定位为辅助工具而非替代方案,并提出开发"幻觉检测系统"——通过双AI模型交叉验证,对可疑结果进行预警或屏蔽。
斯坦福医学院Jonathan Chen教授用"临界时刻"形容当前医疗AI发展现状。他强调AI系统需要比人类更高的错误容忍度:"当AI生成90%正确的内容时,人们会产生过度信任。就像自动驾驶汽车,即使99%情况表现良好,剩下1%的失误也可能造成致命后果。"
制度性反思
杜克健康首席数据科学家Michael Pencina认为,医疗AI的审核标准必须超越人类医生水平:"当系统具备自主决策能力时,必须建立更严格的证据门槛。"他指出当前行业仍处于"狂野西部"阶段,急需建立规范的评估体系。
值得注意的是,这篇包含50余名作者的研究论文,在发表前经过医学专家审核却未发现明显错误。这暴露了科研流程中的系统性漏洞,也反映出医疗AI技术成熟度评估机制的缺失。正如Shah所言:"当AI出现错误时,我们无法像纠正人类医生那样进行深度复盘。"
【全文结束】

