由ChatGPT制造商OpenAI于两年前推出的Whisper是一款将语音转换为文本的AI工具。目前,该工具已被AI医疗公司Nabla及其45,000名临床医生用于帮助转录超过85个组织(如爱荷华大学卫生保健)的医疗对话。然而,新的研究表明,Whisper在转录音频时会“凭空捏造”,即添加从未说过的陈述,这引发了医疗设施应如何快速采用AI技术的问题,尤其是在其产生错误的情况下。
据美联社报道,密歇根大学的研究人员在80%的Whisper转录中发现了“凭空捏造”的现象。一位未具名的开发者在超过100小时的转录中发现了一半的“凭空捏造”。另一位工程师在其生成的26,000份Whisper转录中几乎都发现了不准确之处。
普林斯顿高等研究院教授Alondra Nelson在接受美联社采访时表示:“医生与患者之间的对话转录错误可能会带来非常严重的后果。”她强调:“没有人希望出现误诊。”
今年早些时候,康奈尔大学、纽约大学、华盛顿大学和弗吉尼亚大学的研究人员发表了一项研究,追踪了OpenAI的Whisper语音转文字服务在转录13,140段平均长度为10秒的音频片段时“凭空捏造”的次数。这些音频来自TalkBank的AphasiaBank数据库,该数据库收录了患有失语症(一种语言障碍,使沟通变得困难)的人的声音。
研究人员在2023年春季进行实验时发现,有312个“凭空捏造的短语或句子”,这些内容在原始音频中并不存在。在这些“凭空捏造”的转录中,38%包含有害语言,如暴力或刻板印象,这些内容与对话的实际背景不符。
研究人员写道:“我们的研究证明,由于不可预测的‘凭空捏造’,Whisper的准确性存在严重问题。”他们还指出,这项研究可能意味着Whisper存在“凭空捏造”的偏见,即它更倾向于为特定群体插入不准确内容,而不仅仅是患有失语症的人。“基于我们的发现,我们建议这种‘凭空捏造’偏见也可能出现在任何因言语障碍而导致更多不流利的群体中(例如患有其他言语障碍如声带疾病的人、老年人或非母语使用者)。”
据The Verge报道,Whisper已通过Nabla转录了七百万次医疗对话。
(全文结束)

