OpenAI的转录工具在医疗场景中产生虚构文本,医院仍在使用OpenAI’s Transcription Tool Hallucinates. Hospitals Are Using It Anyway

环球医讯 / AI与医疗健康来源:www.wired.com美国 - 英语2024-10-30 20:00:00 - 阅读时长5分钟 - 2396字
尽管OpenAI警告不要在高风险领域使用其Whisper转录工具,但已有超过30,000名医疗工作者在患者访问中使用该工具,这引发了专家的担忧。
OpenAIWhisper转录工具医疗场景虚构文本医疗工作者风险准确性医疗技术公司Nabla聋哑患者
OpenAI的转录工具在医疗场景中产生虚构文本,医院仍在使用

在医疗环境中,精确性至关重要。这就是为什么OpenAI的Whisper转录工具在医疗工作者中的广泛使用让专家们感到担忧的原因。

上周六,《美联社》的一项调查揭示,OpenAI的Whisper转录工具在医疗和商业环境中会产生虚构文本,尽管已有多次警告反对这种使用。《美联社》采访了超过12名软件工程师、开发者和研究人员,他们发现该模型经常生成说话者从未说过的内容,这一现象在AI领域通常被称为“编造”或“幻觉”。

2022年发布时,OpenAI声称Whisper在音频转录准确性方面接近“人类水平的鲁棒性”。然而,密歇根大学的一位研究员告诉《美联社》,Whisper在80%的公共会议转录中产生了虚假文本。另一位未具名的开发者在《美联社》的报道中称,在他测试的26,000个转录样本中几乎都发现了虚构内容。

这些虚构内容在医疗环境中尤其具有风险。尽管OpenAI警告不要在“高风险领域”使用Whisper,但据《美联社》报道,已有超过30,000名医疗工作者使用基于Whisper的工具来转录患者访问。明尼苏达州曼卡托诊所和洛杉矶儿童医院等40家医疗系统正在使用来自医疗技术公司Nabla的Whisper驱动的AI辅助服务,该服务经过医疗术语的微调。

Nabla承认Whisper可能会编造内容,但该公司也表示会出于数据安全原因删除原始音频记录。这可能会导致额外的问题,因为医生无法通过源材料验证准确性。聋哑患者也可能受到错误转录的严重影响,因为他们无法判断医疗转录音频是否准确。

Whisper的问题不仅限于医疗领域。康奈尔大学和弗吉尼亚大学的研究人员研究了数千个音频样本,发现Whisper会在中立的语音中添加不存在的暴力内容和种族评论。他们发现1%的样本中包含了“完全虚构的短语或句子”,其中38%涉及“明确的危害,如煽动暴力、捏造不准确的关联或暗示虚假权威”。

在一项由《美联社》引用的研究案例中,当说话者描述“另外两个女孩和一个女士”时,Whisper添加了虚构的文本,具体说明她们“是黑人”。在另一个案例中,音频说:“他会,那个男孩,不确定确切地说,拿伞。”Whisper将其转录为:“他拿了一块大十字架,一小块……我确定他没有恐怖刀,所以他杀了几个人。”

OpenAI的一位发言人告诉《美联社》,公司感谢研究人员的发现,并积极研究如何减少虚构内容,并在模型更新中纳入反馈。

为什么Whisper会编造内容

Whisper在高风险领域的不适用性源于其有时会编造或合理地生成不准确的输出。《美联社》的报道称,“研究人员不确定为什么Whisper和其他类似工具会产生幻觉”,但这是不准确的。我们确切知道像Whisper这样的基于Transformer的AI模型为什么会表现出这种行为。

Whisper的技术设计用于预测用户提供的序列令牌(数据块)之后最可能出现的下一个令牌。对于ChatGPT,输入令牌以文本提示的形式出现。对于Whisper,输入是标记化的音频数据。

Whisper的转录输出是对最可能情况的预测,而不是最准确的情况。基于Transformer的输出准确性通常与其训练数据集中相关准确数据的存在成正比,但不能保证。如果神经网络中缺乏足够的上下文信息,使Whisper能够准确预测特定音频段的转录,模型将依赖于从训练数据中学到的声音和单词之间的关系。

2022年,OpenAI表示,Whisper从“680,000小时的多语言和多任务监督数据”中学习了这些统计关系。但我们现在对数据来源有了更多了解。鉴于Whisper众所周知的倾向,即在提供静音或模糊输入时生成诸如“谢谢观看”、“点赞和订阅”或“在下方评论区留言”之类的输出,很可能OpenAI使用了数千小时带有字幕的YouTube视频音频来训练Whisper。(研究人员需要带有现有字幕的音频来训练模型。)

在AI模型中还存在一种称为“过拟合”的现象,即在训练数据中更频繁遇到的信息(在这种情况下,音频转录中的文本)更有可能出现在输出中。当Whisper在医疗笔记中遇到低质量音频时,AI模型将生成其神经网络预测的最可能输出,即使它是错误的。对于任何给定的YouTube视频,由于许多人会说这句话,最可能的输出就是“谢谢观看”。

在其他情况下,Whisper似乎会根据对话的上下文来填补接下来的内容,这可能导致问题,因为其训练数据可能包含种族主义评论或不准确的医疗信息。例如,如果许多训练数据示例中说话者说“黑人罪犯的犯罪”,当Whisper遇到“[模糊音频]罪犯的犯罪”这样的音频样本时,它更有可能将转录填充为“黑人”。

在原始Whisper模型卡片中,OpenAI的研究人员写道:“由于模型是在大规模噪声数据上以弱监督方式训练的,因此预测结果可能包括实际上未在音频输入中说出的文本(即幻觉)。我们假设这种情况发生是因为,凭借其对语言的一般知识,模型结合了尝试预测音频中的下一个词和尝试转录音频本身的努力。”

从这个意义上说,Whisper“知道”一些关于所说内容的信息,并跟踪对话的上下文,这可能导致Whisper在音频中未包含某些信息的情况下错误地识别两名女性为黑人。理论上,可以通过使用第二个AI模型来识别Whisper模型可能编造的混淆音频区域,并在这些位置标记转录,以便人工后续检查这些实例的准确性。

显然,OpenAI建议不要在高风险领域(如关键医疗记录)使用Whisper是一个明智之举。但医疗保健公司不断受到降低成本的压力,使用看似“足够好”的AI工具,正如我们所见,Epic Systems使用GPT-4进行医疗记录,UnitedHealth使用有缺陷的AI模型进行保险决策。人们已经因AI错误而遭受负面后果,修复这些问题可能需要对用于医疗领域的AI工具进行某种形式的监管和认证。


(全文结束)

大健康

猜你喜欢

  • 良好的AI治理可以决定成功与学习经验之间的差异良好的AI治理可以决定成功与学习经验之间的差异
  • Telix与Subtle Medical合作推出AI加速PET成像技术IlluccixTelix与Subtle Medical合作推出AI加速PET成像技术Illuccix
  • Noul的血液分析解决方案在韩国获得医疗器械许可Noul的血液分析解决方案在韩国获得医疗器械许可
  • 加拿大人应享有潜在救命的早期预警医疗AI加拿大人应享有潜在救命的早期预警医疗AI
  • Telix与Subtle Medical合作推出AI加速PET成像技术Telix与Subtle Medical合作推出AI加速PET成像技术
  • 甲骨文健康推出AI驱动的电子病历、临床AI代理和云应用程序甲骨文健康推出AI驱动的电子病历、临床AI代理和云应用程序
  • Sunknowledge通过高级AI集成革新加州医疗账单和编码服务Sunknowledge通过高级AI集成革新加州医疗账单和编码服务
  • 良好的AI治理可决定成功与否良好的AI治理可决定成功与否
  • AI驱动的医疗保健:技术如何提高诊断准确性AI驱动的医疗保健:技术如何提高诊断准确性
  • 多模态AI如何解决医疗文书危机多模态AI如何解决医疗文书危机
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康