医生罗海德·阿里(Dr. Rohaid Ali)于2024年3月11日在罗德岛普罗维登斯的罗德岛医院播放了他的患者亚历克西斯·博根(Alexis Bogan)制作的一段高中项目视频。博根因脑肿瘤导致语言障碍,医生们使用她录制的语音样本和OpenAI的语音克隆工具重新创建了她以前的声音。神经外科医生康斯坦丁娜·斯沃科斯(Dr. Konstantina Svokos)也在场。(美联社照片/乔什·雷诺兹)
旧金山(美联社)——科技巨头OpenAI吹嘘其人工智能驱动的转录工具Whisper具有接近人类水平的稳健性和准确性。但据十几位软件工程师、开发人员和学术研究人员的采访,Whisper有一个重大缺陷:它容易编造大段文本甚至整句。这些被业内称为“幻觉”的虚构文本可能包括种族评论、暴力言论甚至是想象中的医疗治疗。
专家表示,这种虚构内容是一个问题,因为Whisper正在全球多个行业中用于翻译和转录访谈、生成流行消费者技术中的文本以及为视频创建字幕。更令人担忧的是,尽管OpenAI警告该工具不应在高风险领域使用,但医疗机构仍急于利用基于Whisper的工具来转录患者的医生咨询。
问题的全部范围难以确定,但研究人员和工程师表示,他们在工作中经常遇到Whisper的“幻觉”。例如,密歇根大学的一名研究员在研究公共会议时发现,在他检查的每10个音频转录中有8个存在幻觉,之后他才开始尝试改进模型。一名机器学习工程师说,他在分析的超过100小时的Whisper转录中最初发现了大约一半的幻觉。第三名开发人员表示,他在用Whisper创建的26,000份转录中几乎每一项都发现了幻觉。
即使在录音质量良好、音频片段较短的情况下,问题仍然存在。计算机科学家最近的一项研究发现,在他们检查的13,000多个清晰音频片段中发现了187个幻觉。研究人员表示,这一趋势会导致数百万次录音中出现数万次错误转录。
前白宫科学技术政策办公室主任阿隆德拉·尼尔森(Alondra Nelson)表示:“这样的错误可能会产生非常严重的后果,特别是在医院环境中。”尼尔森目前是普林斯顿高等研究院的教授。“没有人希望出现误诊。应该有更高的标准。”
Whisper还用于为聋人和听力障碍者创建闭路字幕,这是一个特别容易受到错误转录影响的人群。加劳德特大学技术访问项目主任克里斯蒂安·福格勒(Christian Vogler)表示,聋人和听力障碍者无法识别隐藏在其他文本中的虚构内容。
呼吁OpenAI解决问题
此类幻觉的普遍存在已促使专家、倡导者和前OpenAI员工呼吁联邦政府考虑AI法规。至少,他们表示,OpenAI需要解决这一缺陷。“如果公司愿意优先处理这个问题,这似乎是可解决的,”旧金山的研究工程师威廉·桑德斯(William Saunders)说,他于今年2月因对公司方向的担忧而离职。“如果你推出这个工具,人们对其能力过于自信并将其集成到其他系统中,这是有问题的。”
OpenAI的一位发言人表示,公司不断研究如何减少幻觉,并感谢研究人员的发现,称OpenAI会在模型更新中纳入反馈。虽然大多数开发者认为转录工具会拼写错误或犯其他错误,但工程师和研究人员表示,他们从未见过其他AI驱动的转录工具像Whisper那样频繁地产生幻觉。
Whisper的幻觉
该工具被集成到OpenAI旗舰聊天机器人ChatGPT的一些版本中,并作为甲骨文和微软云平台的内置功能,服务于全球数千家公司。它还用于将文本转录和翻译成多种语言。仅在过去一个月,一个最近版本的Whisper就在开源AI平台HuggingFace上被下载超过420万次。该平台的机器学习工程师桑奇特·甘地(Sanchit Gandhi)表示,Whisper是最受欢迎的开源语音识别模型,广泛应用于从呼叫中心到语音助手的各种场景。
康奈尔大学的艾莉森·科内克(Allison Koenecke)教授和弗吉尼亚大学的莫娜·斯洛恩(Mona Sloane)教授检查了从卡内基梅隆大学托管的研究存储库TalkBank获得的数千个短片段。他们确定,近40%的幻觉是有害或令人担忧的,因为发言者可能会被误解或歪曲。
在一个他们发现的例子中,发言者说:“他,那个男孩,准备……我不太确定,拿雨伞。”但转录软件添加了:“他拿起一大块十字架,一小块……我肯定他没有恐怖刀,所以杀死了几个人。”
另一个录音中的发言者描述了“另外两个女孩和一位女士。”Whisper虚构了额外的种族评论,加上了“另外两个女孩和一位女士,嗯,她们是黑人。”
在第三个转录中,Whisper虚构了一种不存在的药物“超激活抗生素”。
研究人员不确定为什么Whisper和其他类似工具会产生幻觉,但软件开发者表示,虚构内容往往发生在停顿、背景声音或音乐播放期间。OpenAI在其在线披露中建议不要在决策上下文中使用Whisper,因为准确性上的缺陷可能导致结果上的显著偏差。
转录医生就诊
尽管OpenAI发出了警告,但医院和医疗中心仍在使用语音转文字模型,包括Whisper,来转录医生就诊时的对话,以减少医务人员在记笔记或撰写报告上花费的时间。超过30,000名临床医生和40个医疗系统,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院,已经开始使用由Nabla构建的基于Whisper的工具。Nabla在法国和美国设有办事处。
Nabla首席技术官马丁·雷松(Martin Raison)表示,该工具经过了医学语言的微调,可以转录和总结患者的互动。公司官员表示,他们意识到Whisper可能会产生幻觉,并正在采取措施缓解这一问题。
由于“数据安全原因”,Nabla的工具会删除原始音频,因此无法将AI生成的转录与原始录音进行比较。前OpenAI工程师威廉·桑德斯表示,如果不对转录进行双重检查或医务人员无法访问录音以验证其正确性,删除原始音频可能会令人担忧。“如果你拿走了真实情况,就无法发现错误,”他说。
Nabla表示,没有任何模型是完美的,他们的模型目前要求医务人员快速编辑和批准转录的笔记,但这可能会改变。
隐私问题
由于患者与医生的会面是保密的,很难知道AI生成的转录对他们产生了什么影响。加州州议员丽贝卡·鲍尔-卡汉(Rebecca Bauer-Kahan)表示,她今年早些时候带孩子去看医生时,拒绝签署卫生网络提供的表格,该表格寻求她的许可,将咨询音频分享给包括微软Azure在内的供应商。微软Azure是由OpenAI最大投资者运营的云计算系统。鲍尔-卡汉表示,她不希望如此亲密的医疗对话被分享给科技公司。“授权书明确指出,营利性公司有权拥有这些信息,”鲍尔-卡汉说,她是代表旧金山郊区的民主党州议员。“我当时想的是‘绝对不行’。”
约翰·缪尔健康系统的发言人本·德鲁(Ben Drew)表示,该医疗系统遵守州和联邦隐私法。
(全文结束)

