研究人员：医院使用的AI转录工具会编造从未说过的内容 - AI与医疗健康

研究人员：医院使用的AI转录工具会编造从未说过的内容Researchers: AI-powered transcription tool used in hospitals makes up things no one said

环球医讯 / AI与医疗健康来源：www.detroitnews.com美国 - 英语2024-10-27 03:00:00 - 阅读时长6分钟 - 2553字

OpenAI的AI转录工具Whisper在多个行业中广泛应用，但其存在编造内容的问题，尤其在医疗领域的应用中可能带来严重后果。

研究人员发现，OpenAI推出的基于人工智能的转录工具Whisper虽然被宣传具有接近人类水平的稳健性和准确性，但却存在一个重大缺陷：它容易编造大段文本甚至整句内容。据超过十几位软件工程师、开发者和学术研究人员的采访，这些编造的内容（业内称为“幻觉”）可能包括种族评论、暴力言论甚至是虚构的医疗治疗方案。

专家表示，这种编造内容的问题非常严重，因为Whisper正在全球多个行业中被用于翻译和转录音频、生成流行消费技术中的文本以及创建视频字幕。更令人担忧的是，尽管OpenAI警告不应在高风险领域使用该工具，但许多医疗中心仍在急于采用基于Whisper的工具来转录患者与医生的咨询对话。

问题的严重程度难以全面评估，但研究人员和工程师表示，在他们的工作中经常遇到Whisper的“幻觉”。例如，密歇根大学的一位研究员在研究公共会议时发现，他检查的每10个音频转录中有8个存在“幻觉”，在他开始尝试改进模型之前。一位机器学习工程师表示，他在分析的100多小时的Whisper转录中，最初发现了大约一半的“幻觉”。另一位开发人员表示，他在用Whisper创建的26,000份转录中几乎每一项都发现了“幻觉”。

即使在录制良好、音频样本较短的情况下，问题依然存在。最近一项由计算机科学家进行的研究发现，在他们检查的13,000多个清晰音频片段中，有187个存在“幻觉”。研究人员表示，这一趋势可能导致数百万次录音中出现数万次错误转录。

普林斯顿高等研究院教授、前白宫科学技术政策办公室主任阿隆德拉·尼尔森（Alondra Nelson）表示：“特别是在医院环境中，这种错误可能会产生非常严重的后果。”尼尔森说：“没有人希望出现误诊。应该有一个更高的标准。”

Whisper还被用于为聋人和听力障碍者创建字幕，这一群体特别容易受到错误转录的影响。因为聋人和听力障碍者无法识别隐藏在其他文本中的编造内容，加劳德特大学技术访问项目主任克里斯蒂安·沃格尔（Christian Vogler）表示，他自己也是聋人。

“这种幻觉的普遍性已经导致专家、倡导者和前OpenAI员工呼吁联邦政府考虑AI法规。至少，OpenAI需要解决这一缺陷。”旧金山研究工程师威廉·桑德斯（William Saunders）说，他于今年2月因对公司发展方向的担忧而离开OpenAI。“如果公司愿意优先解决这个问题，这似乎是可解决的。但如果将其推出，人们对其功能过于自信并将其集成到各种系统中，这是有问题的。”

OpenAI的一位发言人表示，公司不断研究如何减少“幻觉”，并感谢研究人员的发现，称OpenAI会在模型更新中纳入反馈。大多数开发者认为转录工具会拼写错误或出现其他错误，但工程师和研究人员表示，他们从未见过其他AI转录工具像Whisper那样频繁地“幻觉”。

Whisper已集成到OpenAI旗舰聊天机器人ChatGPT的一些版本中，并作为甲骨文和微软云平台的内置功能，服务于全球数千家公司。它还被用于将文本转录和翻译成多种语言。仅在过去一个月内，Whisper的一个最新版本就在开源AI平台HuggingFace上被下载了超过420万次。HuggingFace的机器学习工程师桑奇特·甘地（Sanchit Gandhi）表示，Whisper是最受欢迎的开源语音识别模型，被广泛应用于呼叫中心和语音助手等场景。

康奈尔大学教授艾莉森·科恩克（Allison Koenecke）和弗吉尼亚大学教授莫娜·斯洛恩（Mona Sloane）检查了从卡内基梅隆大学托管的研究存储库TalkBank获得的数千个短片段。他们发现，近40%的“幻觉”是有害或令人担忧的，因为发言者可能会被误解或曲解。

在一个例子中，发言者说：“他，那个男孩，将会，我不确定具体，拿雨伞。”但转录软件却添加了：“他拿起了一块大十字架，一小块……我肯定他没有恐怖刀，所以他杀死了几个人。”

在另一个录音中，发言者描述了“另外两个女孩和一个女士。”Whisper却添加了种族评论：“另外两个女孩和一个女士，嗯，她们是黑人。”

在第三个转录中，Whisper编造了一个不存在的药物“超激活抗生素”。

研究人员不确定为什么Whisper和其他类似工具会出现“幻觉”，但软件开发者表示，这些编造内容通常发生在停顿、背景声音或音乐播放期间。OpenAI在其在线披露中建议不要在决策上下文中使用Whisper，因为准确性问题可能导致结果的重大偏差。

尽管如此，医院和医疗中心仍在使用包括Whisper在内的语音转文字模型，以减轻医务人员记录笔记或撰写报告的时间。超过30,000名临床医生和40个医疗系统，包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院，已经开始使用Nabla公司构建的基于Whisper的工具。Nabla公司在法国和美国设有办事处。

Nabla首席技术官马丁·雷松（Martin Raison）表示，该工具经过优化，可以转录和总结患者的互动。公司官员表示，他们意识到Whisper可能会“幻觉”，并正在解决这一问题。

由于数据安全原因，Nabla的工具会删除原始音频，因此无法将AI生成的转录与原始录音进行比较。前OpenAI工程师威廉·桑德斯表示，如果转录未经双重检查或医务人员无法访问录音以验证其正确性，删除原始音频可能会令人担忧。“如果你拿走了事实依据，你就无法发现错误。”他说。

Nabla表示，没有任何模型是完美的，目前他们的模型仍需医务人员快速编辑和批准转录的笔记，但这可能会改变。

由于患者与医生的会议是保密的，很难知道AI生成的转录如何影响他们。加州州议员丽贝卡·鲍尔-卡汉（Rebecca Bauer-Kahan）表示，她今年早些时候带孩子去看医生时，拒绝签署健康网络提供的表格，该表格要求她同意将咨询音频分享给包括微软Azure在内的供应商，而微软Azure是由OpenAI最大投资者运营的云计算系统。鲍尔-卡汉表示，她不希望这些亲密的医疗对话被分享给科技公司。“授权书明确规定，营利性公司有权拥有这些信息，我当时就坚决拒绝了。”她说。

约翰·穆尔健康系统的发言人本·德鲁（Ben Drew）表示，该健康系统遵守州和联邦隐私法律。

(全文结束)