医院采用易出错的AI转录工具,尽管有警告Hospitals adopt error-prone AI transcription tools despite warnings

环球医讯 / AI与医疗健康来源:arstechnica.com美国 - 英语2024-10-29 02:00:00 - 阅读时长5分钟 - 2327字
调查发现OpenAI的Whisper转录工具在医疗和商业环境中生成虚假文本,尽管该公司已发出警告
AI转录工具Whisper医疗环境虚构文本编造内容高风险领域医疗工作者数据安全AI监管
医院采用易出错的AI转录工具,尽管有警告

周六,美联社的一项调查显示,尽管OpenAI警告不要在高风险领域使用其Whisper转录工具,但该工具仍在医疗和商业环境中生成虚构文本。据美联社报道,超过12名软件工程师、开发人员和研究人员发现,该模型经常发明说话者从未说过的内容,这种现象在AI领域通常被称为“编造”或“幻觉”。2022年发布时,OpenAI声称Whisper在音频转录准确性方面接近“人类水平的稳健性”。然而,密歇根大学的一位研究员告诉美联社,Whisper在80%的公共会议转录中创建了虚假文本。另一位未具名的开发者称,在他测试的26,000个转录中,几乎所有的内容都包含虚构内容。

这些虚构内容在医疗环境中尤其具有风险。尽管OpenAI警告不要在“高风险领域”使用Whisper,但据美联社报道,已有超过30,000名医疗工作者使用基于Whisper的工具来转录音频记录。明尼苏达州曼卡托诊所和洛杉矶儿童医院在内的40家卫生系统正在使用医疗技术公司Nabla提供的由Whisper驱动的AI辅助服务,该服务经过医学术语的微调。Nabla承认Whisper可能会编造内容,但据报道,它会删除原始音频记录“出于数据安全原因”。这可能导致额外的问题,因为医生无法对照源材料验证准确性。聋哑患者可能受到误转录的影响更大,因为他们无法知道医疗转录音频是否准确。

Whisper的问题不仅限于医疗领域。康奈尔大学和弗吉尼亚大学的研究人员研究了数千个音频样本,发现Whisper在中立的语音中添加了不存在的暴力内容和种族评论。他们发现1%的样本中包含了“完全虚构的短语或句子”,其中38%的内容包括“明确的危害,如煽动暴力、捏造不准确的关联或暗示虚假权威”。

在AP引用的一项研究案例中,当演讲者描述“另外两个女孩和一个女士”时,Whisper添加了虚构的文本,指明她们“是黑人”。在另一个案例中,音频说,“他,那个男孩,打算,我不确定具体,拿伞。”Whisper将其转录为,“他拿了一块大十字架,一小块……我确定他没有恐怖刀,所以他杀死了很多人。”

OpenAI的一位发言人告诉美联社,公司感谢研究人员的发现,并积极研究如何减少虚构内容,并在模型更新中纳入反馈。

为什么Whisper会编造内容

Whisper不适合用于高风险领域的主要原因是其有时会编造不准确的输出。据美联社报道,“研究人员不确定为什么Whisper和其他类似工具会产生幻觉”,但这是不正确的。我们确切地知道像Whisper这样的基于Transformer的AI模型为什么会这样行为。

Whisper基于一种旨在预测用户提供的序列令牌(数据块)之后最有可能出现的下一个令牌的技术。对于ChatGPT,输入令牌以文本提示的形式出现。对于Whisper,输入是分词化的音频数据。Whisper的转录输出是对最有可能情况的预测,而不是最准确的情况。基于Transformer的输出准确性通常与训练数据集中相关准确数据的存在成正比,但并不能保证。如果神经网络中缺乏足够的上下文信息,使Whisper无法准确预测如何转录特定的音频片段,模型将依赖于从训练数据中学到的声音和单词之间的关系。

2022年,OpenAI表示Whisper从“从网络收集的680,000小时多语言和多任务监督数据”中学习了这些统计关系。现在我们对数据来源有了更多了解。鉴于Whisper众所周知的倾向,即在提供静音或杂音输入时生成某些输出,例如“感谢观看”、“点赞和订阅”或“在下方评论区留言”,很可能OpenAI使用了数千小时带有字幕的YouTube视频音频进行训练(研究人员需要音频与其现有字幕配对来训练模型)。

在AI模型中还存在一种称为“过拟合”的现象,即在训练数据中更频繁遇到的信息(在这种情况下,音频转录中的文本)更有可能出现在输出中。当Whisper在医疗笔记中遇到低质量音频时,AI模型将生成其神经网络预测的最有可能的输出,即使它是错误的。对于任何给定的YouTube视频,由于许多人会说“谢谢观看”,因此最有可能的输出就是“谢谢观看”。

在其他情况下,Whisper似乎会根据对话的上下文来填补接下来的内容,这可能会导致问题,因为其训练数据可能包含种族主义评论或不准确的医疗信息。例如,如果许多训练数据示例中说话者说“黑人罪犯的犯罪”,当Whisper遇到“[杂音]罪犯的犯罪”音频样本时,它更有可能将转录填充为“黑人”。

在最初的Whisper模型卡片中,OpenAI研究人员写道:“由于模型是在大量噪声数据上以弱监督方式训练的,预测结果可能包括实际上未在音频输入中说出的文本(即幻觉)。我们认为这种情况发生是因为,鉴于它们对语言的一般知识,模型结合了尝试预测音频中的下一个词和尝试转录音频本身。”

从这个意义上说,Whisper“了解”了一些关于所说内容的信息,并跟踪了对话的上下文,这可能导致问题,例如Whisper将两名女性识别为黑人,尽管原始音频中没有包含该信息。理论上,可以通过使用第二个AI模型来挑选出Whisper模型可能编造的混淆音频区域,并在这些位置标记转录,以便人类稍后手动检查这些实例的准确性来减少这种错误情况。

显然,OpenAI建议不要在关键医疗记录等高风险领域使用Whisper是一个明智的建议。但医疗保健公司不断受到降低成本的压力,使用看似“足够好”的AI工具,正如我们已经看到Epic Systems使用GPT-4进行医疗记录和UnitedHealth使用有缺陷的AI模型进行保险决策一样。人们可能已经因AI错误而遭受负面后果,解决这些问题可能需要某种形式的AI工具在医疗领域的监管和认证。


(全文结束)

大健康

猜你喜欢

  • 老年人不信任AI生成的健康信息:4个要点老年人不信任AI生成的健康信息:4个要点
  • OpenAI转录技术漏洞可能导致医生指示错误OpenAI转录技术漏洞可能导致医生指示错误
  • eClinicalWorks年度大会上的AI公告大放异彩eClinicalWorks年度大会上的AI公告大放异彩
  • 医院的AI转录工具编造了从未说过的话,研究人员说医院的AI转录工具编造了从未说过的话,研究人员说
  • 迈向未来:医疗保健领域的人工智能应用迈向未来:医疗保健领域的人工智能应用
  • 美国自适应AI驱动医疗设备:伦理考量美国自适应AI驱动医疗设备:伦理考量
  • AI可提高医疗诊断准确性AI可提高医疗诊断准确性
  • 医疗保健领域的人工智能炒作:如何识别和避免空洞承诺医疗保健领域的人工智能炒作:如何识别和避免空洞承诺
  • 英格兰NHS采用流程挖掘技术取得显著成果英格兰NHS采用流程挖掘技术取得显著成果
  • Treatment.com AI 首席执行官 Dr. Essam Hamza 在 Cantech 24 接受采访Treatment.com AI 首席执行官 Dr. Essam Hamza 在 Cantech 24 接受采访
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康