医疗从业者对医疗领域大规模使用存在错误倾向的生成式AI工具表示日益不安。这项技术的普及一再因 rampant "幻觉"(AI生成虚假事实的委婉说法)而受阻。
一个极具说服力的错误甚至存在了14个月才被发现。在谷歌2024年5月发表的医疗AI模型Med-Gemini研究论文中,研究人员展示了该AI分析放射科脑部扫描图像的能力。该系统识别出"旧左基底动脉神经节梗塞",其中"基底动脉神经节"这个解剖结构在人体中根本不存在。
认证神经科医生布莱恩·摩尔(Bryan Moore)向《The Verge》指出该问题时,谷歌虽修改了相关博客文章,但研究论文本身始终未做修正。该错误源于AI混淆了控制运动和习惯形成的基底核(basal ganglia)与脑干基底部的主要血管基底动脉(basilar artery)。谷歌将此归咎于简单的拼写错误。
这种暴露技术缺陷的事件引发担忧,即使是最新的"推理"AI仍在传播由大型语言模型生成的错误信息。在医疗场景中,这类错误可能导致灾难性后果。尽管此次事件未直接危及患者,但专家认为这树立了危险先例。
"这非常危险",普罗维登斯医疗系统首席医疗信息官毛林·沙阿(Maulin Shah)强调,"两个字母之差却关系重大"。谷歌曾声称其医疗AI在X光、CT扫描等疾病识别方面具有"重大医学潜力"。在摩尔指出错误后,谷歌员工承认是笔误,但在更新博客的同时始终未修改研究论文。
在医疗语境中,AI幻觉可能轻易导致诊断混淆甚至危及生命。"我们无法完全信任人类对AI输出的逐层审核",沙阿表示。其他专家也指出,从AI治疗师、放射科医生、护士到患者交互转录服务,临床环境的AI应用都需要更审慎的推进策略。
值得注意的是,谷歌更先进的医疗模型MedGemma同样存在随提问方式不同而产生矛盾答案的问题。埃默里大学放射学与信息学副教授朱迪·吉乔亚(Judy Gichoya)指出:"它们倾向于编造答案而不愿说'我不知道',这在医疗这种高风险领域是重大问题。"
尽管谷歌持续推出医疗AI功能,包括AI健康顾问和药物研发"协同科学家",专家警告必须建立比人类更高的AI错误容忍标准。"如果AI的错误率只是达到人类水平就远远不够",沙阿强调。
【全文结束】