众所周知,生成式AI容易产生幻觉,但随着这些工具进入关键领域如医疗保健,警报声已经响起。即使OpenAI也警告不要在其转录工具中用于高风险环境。尽管有这些警告,医疗行业还是继续采用了基于Whisper的工具。
OpenAI的转录工具称为Whisper,因其显著缺陷——生成虚构文本(即幻觉)而受到批评。尽管公司声称该工具具有“人类水平的稳健性和准确性”,但接受美联社采访的专家发现,Whisper在许多情况下会凭空发明整个句子或添加不存在的内容到转录中。
这一问题尤其令人担忧,因为Whisper在各个行业中被广泛应用。该工具用于翻译和转录音频、生成消费者技术的文本以及创建视频字幕。最令人不安的是,尽管OpenAI明确警告不要在“高风险领域”使用该工具,医疗中心仍迅速采用基于Whisper的工具来转录患者咨询。
总部位于法国和美国的Nabla公司开发了一款基于Whisper的工具,该工具已被超过30,000名临床医生和40个卫生系统使用,包括明尼苏达州曼卡托诊所和洛杉矶儿童医院。Nabla的首席技术官Martin Raison表示,他们的工具经过优化,可以转录和总结患者互动。然而,该公司出于“数据安全原因”删除了原始音频,使得无法将AI生成的转录与原始录音进行对比。
据Nabla称,该工具已用于转录约700万次医疗访问。在医疗环境中使用AI转录工具还引发了隐私问题。加州州议员Rebecca Bauer-Kahan分享了她拒绝签署允许其孩子医生与供应商(包括微软Azure)共享咨询音频的表格的经历。“授权书明确规定,营利性公司将有权获得这些数据,”她告诉美联社。“我绝对不同意。”
目前尚不清楚Whisper的幻觉问题有多严重,但研究人员和工程师在其工作中报告了许多此类问题的实例。密歇根大学的一名研究员在检查的公共会议转录中观察到80%的情况存在幻觉。一名机器学习工程师在分析的100多个小时的Whisper转录音频中发现了大约一半的幻觉,而另一名开发者在使用该工具创建的近26,000份转录中发现了几乎所有的幻觉。
康奈尔大学教授Allison Koenecke和弗吉尼亚大学助理教授Mona Sloane进行的一项研究检查了数千个短音频片段,发现近40%的幻觉被认为是有害或令人担忧的,因为它们可能导致对发言者的误解或曲解。这些幻觉的例子包括在原始音频中不存在的情况下添加暴力内容、发明不存在的种族评论以及创造虚构的医疗治疗。
在一个案例中,Whisper将一个简单的关于男孩拿雨伞的陈述变成了涉及十字架和刀具的暴力情景。在另一个案例中,该工具向一个中立的关于人的陈述添加了种族描述。Whisper还在一次转录中虚构了一种名为“超激活抗生素”的药物。
“这样的错误可能带来非常严重的后果,尤其是在医院环境中,”前白宫科学技术政策办公室主任Alondra Nelson说。她目前是普林斯顿高等研究院的教授。“没有人希望出现误诊,”Nelson说。“应该有更高的标准。”
Whisper的影响远不止OpenAI。该工具已集成到某些版本的ChatGPT中,并作为内置服务提供在Oracle和微软的云计算平台上。仅在一个月内,最近版本的Whisper就在开源AI平台HuggingFace上被下载了超过420万次。
批评者认为,OpenAI需要立即解决这一缺陷。“如果公司愿意优先考虑这一点,这个问题似乎是可以解决的,”前OpenAI工程师William Saunders说,他于今年2月因对公司方向的担忧而离职。“如果将这种工具推出,人们对其功能过于自信,并将其集成到所有其他系统中,这是有问题的。”
(全文结束)

