科技巨头OpenAI曾宣称其基于人工智能的语音转文字工具Whisper具有接近“人类水平的稳健性和准确性”。然而,Whisper有一个重大缺陷:它容易生成虚假的文本片段甚至整个句子。根据对十多位软件工程师、开发者和学术研究人员的采访,这些虚构的文本(业内称为“幻觉”)可能包括种族评论、暴力言论甚至虚构的医疗治疗方案。
专家表示,这种虚构内容的问题在于,Whisper正被广泛应用于全球各个行业,用于翻译和转录访谈、生成流行消费技术中的文本以及创建视频字幕。更令人担忧的是,尽管OpenAI警告不应在“高风险领域”使用该工具,但许多医疗中心仍在急于采用基于Whisper的工具来转录患者与医生的咨询。
这一问题的严重程度难以全面了解,但研究人员和工程师们表示,他们在工作中经常遇到Whisper的“幻觉”。例如,密歇根大学的一位研究员在研究公共会议时发现,他检查的每10个音频转录中有8个存在“幻觉”,这促使他开始尝试改进模型。一位机器学习工程师表示,他在分析的100多个小时的Whisper转录中,大约有一半出现了“幻觉”。另一位开发者表示,在他用Whisper创建的26,000份转录中,几乎每一份都存在“幻觉”。
即使在录制质量良好、音频较短的样本中,这一问题依然存在。最近的一项计算机科学研究发现,在他们检查的13,000多个清晰的音频片段中,有187个存在“幻觉”。研究人员表示,这种趋势会导致数百万次录音中出现数万次错误的转录。
特别是在医院环境中,这种错误可能会产生“非常严重的后果”,前白宫科学技术政策办公室主任Alondra Nelson说。她目前是普林斯顿高等研究院的教授。“没有人希望出现误诊,”Nelson说,“应该设立更高的标准。”
Whisper还被用于为聋人和听力障碍者创建闭路字幕,这部分人群特别容易受到错误转录的影响。因为聋人和听力障碍者无法识别隐藏在其他文本中的虚构内容,加劳德特大学技术访问项目主任Christian Vogler(本人也是聋人)说。
这种“幻觉”的普遍存在导致专家、倡导者和前OpenAI员工呼吁联邦政府考虑对AI进行监管。至少,他们认为OpenAI需要解决这一缺陷。“如果公司愿意优先处理这个问题,似乎是可解决的,”旧金山的研究工程师William Saunders说,他于今年2月因对公司的方向感到担忧而离职。“如果将这项技术推出,人们对其能力过于自信,并将其集成到各种系统中,这是有问题的。”
OpenAI的一位发言人表示,公司一直在研究如何减少“幻觉”,并对研究人员的发现表示感谢,OpenAI会在模型更新中纳入反馈。虽然大多数开发者认为语音转文字工具会拼写错误或出现其他错误,但工程师和研究人员表示,他们从未见过其他基于AI的语音转文字工具像Whisper那样频繁地生成“幻觉”。
Whisper已集成到某些版本的OpenAI旗舰聊天机器人ChatGPT中,并作为甲骨文和微软云计算平台的内置服务,服务于全球数千家公司。它还被用于将文本转录和翻译成多种语言。仅在过去一个月内,HuggingFace开源AI平台上的一款最新版Whisper就被下载了超过420万次。Sanchit Gandhi是该平台的一位机器学习工程师,他表示Whisper是最受欢迎的开源语音识别模型,已应用于从呼叫中心到语音助手的各种场景。
康奈尔大学的Allison Koenecke教授和弗吉尼亚大学的Mona Sloane教授检查了从卡内基梅隆大学托管的研究存储库TalkBank获得的数千个短音频片段,发现近40%的“幻觉”是有害或令人担忧的,因为说话者可能会被误解或歪曲。例如,一位说话者说:“他会,那个男孩,打算,我不确定具体,拿伞。”但转录软件添加了:“他拿了一大块十字架,一小块……我确定他没有恐怖刀,所以他杀了几个人。”另一位说话者描述了“另外两个女孩和一个女士。”Whisper虚构了关于种族的额外评论,添加了“另外两个女孩和一个女士,嗯,她们是黑人。”在另一份转录中,Whisper虚构了一种不存在的药物“hyperactivated antibiotics”。
研究人员不确定为什么Whisper和其他类似工具会出现“幻觉”,但软件开发人员表示,这些虚构内容往往出现在停顿、背景声音或音乐播放期间。OpenAI在其在线披露中建议不要在“决策上下文中”使用Whisper,因为准确性上的缺陷可能导致结果上的显著缺陷。
尽管如此,医院和医疗中心仍在使用语音转文字模型(包括Whisper)来转录医生就诊时的对话,以减少医务人员在记录和报告撰写上花费的时间。超过30,000名临床医生和40个卫生系统,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院,已经开始使用由法国和美国设有办事处的Nabla公司构建的基于Whisper的工具。Nabla的首席技术官Martin Raison表示,该工具经过优化,可以转录和总结患者的互动。
公司官员表示,他们意识到Whisper可能出现“幻觉”,并正在解决这一问题。Raison表示,由于数据安全原因,Nabla的工具会删除原始音频,因此无法将AI生成的转录与原始录音进行比较。前OpenAI工程师Saunders表示,如果不对转录进行双重检查或医务人员无法访问录音以验证其正确性,删除原始音频可能会令人担忧。“如果你拿走了事实依据,就无法捕捉到错误,”他说。Nabla表示,没有模型是完美的,他们的模型目前要求医务人员快速编辑和批准转录笔记,但这种情况可能会改变。
由于患者与医生的会议是保密的,很难知道AI生成的转录对他们产生了什么影响。加州州议员Rebecca Bauer-Kahan表示,她今年早些时候带孩子去看医生时,拒绝签署健康网络提供的表格,该表格要求她允许将咨询音频分享给包括微软Azure在内的供应商,微软Azure是由OpenAI最大投资者运行的云计算系统。Bauer-Kahan不希望如此私密的医疗对话被分享给科技公司。“授权书中明确指出,营利性公司有权拥有这些信息,”Bauer-Kahan说,她是代表旧金山郊区的民主党人。“我绝对不同意。”
约翰·穆尔健康系统的发言人Ben Drew表示,该健康系统遵守州和联邦隐私法。
(全文结束)

