研究人员称医院使用的AI转录工具会杜撰从未说过的内容 - AI与医疗健康

研究人员称医院使用的AI转录工具会杜撰从未说过的内容Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said

环球医讯 / AI与医疗健康来源：www.columbian.com美国 - 英语2024-10-29 01:00:00 - 阅读时长6分钟 - 2778字

OpenAI的人工智能转录工具Whisper在医疗等高风险领域使用时，存在杜撰内容的问题，可能导致严重后果

在纽约伊萨卡康奈尔大学，周五（2月2日）的计算机屏幕上显示了一款名为Whisper的人工智能转录程序生成的文本。在这个例子中，说话者说：“嗯，她的父亲在再婚后不久就去世了……”而程序将其转录为：“没关系。只是太敏感，无法告知。她65岁时去世了……”（AP照片/塞思·温格）

旧金山（美联社）——科技巨头OpenAI宣称其人工智能转录工具Whisper具有接近人类水平的稳健性和准确性。但Whisper有一个重大缺陷：它容易杜撰大段文本甚至整个句子。据十几位软件工程师、开发人员和学术研究人员的采访，这些杜撰内容在业内被称为“幻觉”，可能包括种族评论、暴力言论甚至虚构的医疗治疗。

专家表示，这种杜撰内容存在问题，因为Whisper正在全球多个行业中被用于翻译和转录音频、生成流行消费技术中的文本以及为视频创建字幕。更令人担忧的是，尽管OpenAI警告不应在高风险领域使用该工具，但医疗机构仍急于利用基于Whisper的工具来转录音频，以减少医务人员在记录和撰写报告上花费的时间。

问题的严重程度难以确定，但研究人员和工程师表示，他们在工作中经常遇到Whisper的“幻觉”。例如，密歇根大学的一位研究人员在研究公共会议时发现，在他检查的每10个音频转录中有8个存在幻觉，直到他开始尝试改进模型。一位机器学习工程师表示，他在分析的超过100小时的Whisper转录中，最初发现了约一半的幻觉。第三位开发者表示，他在用Whisper创建的26,000份转录中几乎每一份都发现了幻觉。

即使在录制良好、简短的音频样本中，问题仍然存在。最近的一项研究发现，在计算机科学家检查的13,000多个清晰的音频片段中，有187个幻觉。研究人员表示，这一趋势将导致数百万次录音中出现数万次错误转录。

“这样的错误可能会产生非常严重的后果，特别是在医院环境中，”前白宫科学技术政策办公室主任阿隆德拉·尼尔森（Alondra Nelson）说。她领导该办公室直至去年。“没有人希望出现误诊，”目前在普林斯顿高等研究院担任教授的尼尔森说，“应该有更高的标准。”

Whisper还用于为聋人和听力障碍者创建闭路字幕，这是一个特别容易受到错误转录影响的群体。“因为聋人和听力障碍者无法识别隐藏在所有这些文本中的杜撰内容，”加劳德特大学技术访问项目主任克里斯蒂安·沃格尔（Christian Vogler）说，他自己也是聋人。

这种幻觉的普遍性已导致专家、倡导者和前OpenAI员工呼吁联邦政府考虑对人工智能进行监管。至少，他们表示，OpenAI需要解决这一缺陷。“如果公司愿意优先处理这个问题，似乎是可解决的，”旧金山的研究工程师威廉·桑德斯（William Saunders）说，他于今年2月因对公司方向的担忧而辞职。“如果将这种工具推出并且人们对其能力过于自信，将其集成到各种系统中，这是有问题的。”

OpenAI的一位发言人表示，公司一直在研究如何减少幻觉，并感谢研究人员的发现，称OpenAI会在模型更新中纳入反馈。虽然大多数开发人员假设转录工具会拼写错误或犯其他错误，但工程师和研究人员表示，他们从未见过其他人工智能转录工具像Whisper那样频繁地杜撰内容。

Whisper被集成到OpenAI旗舰聊天机器人ChatGPT的某些版本中，并作为内置选项出现在Oracle和微软的云计算平台中，这些平台服务于全球数千家公司。它还用于将文本转录和翻译成多种语言。仅在过去一个月内，HuggingFace开源AI平台上的一个最新版本的Whisper就被下载了超过420万次。该平台的机器学习工程师桑奇特·甘地（Sanchit Gandhi）表示，Whisper是最受欢迎的开源语音识别模型，被广泛应用于从呼叫中心到语音助手的各种场景。

康奈尔大学的艾莉森·科恩克（Allison Koenecke）教授和弗吉尼亚大学的莫娜·斯洛恩（Mona Sloane）教授检查了从卡内基梅隆大学托管的研究存储库TalkBank获得的数千个短片段。他们发现，近40%的幻觉是有害或令人担忧的，因为说话者可能会被误解或曲解。

在一个他们发现的例子中，说话者说：“他会，那个男孩，打算，我不确定具体，拿把伞。”但转录软件添加了：“他拿起一大块十字架，一小块……我肯定他没有恐怖分子刀，所以他杀死了几个人。”

另一个录音中的说话者描述了“另外两个女孩和一个女士。”Whisper虚构了关于种族的额外评论，添加了“另外两个女孩和一个女士，嗯，她们是黑人。”

在第三个转录中，Whisper虚构了一种不存在的药物“超激活抗生素”。

研究人员不确定为什么Whisper和其他类似工具会出现幻觉，但软件开发人员表示，杜撰内容往往发生在停顿、背景声音或播放音乐时。OpenAI在其在线披露中建议不要在决策上下文中使用Whisper，因为在准确性方面存在缺陷可能导致结果出现明显偏差。

然而，这一警告并未阻止医院或医疗中心使用语音转文字模型（包括Whisper）来转录音频，以减少医务人员在记录和撰写报告上花费的时间。超过30,000名临床医生和40个卫生系统，包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院，已经开始使用由Nabla构建的基于Whisper的工具。Nabla在法国和美国设有办事处。

Nabla的首席技术官马丁·雷松（Martin Raison）表示，该工具经过微调，可以转录和总结患者的互动。公司官员表示，他们意识到Whisper可能出现幻觉，并正在解决这一问题。

由于数据安全原因，Nabla的工具会删除原始音频，因此无法将AI生成的转录与原始录音进行比较。雷松说，该工具已被用于转录估计700万次医疗访问。

前OpenAI工程师桑德斯表示，删除原始音频可能会令人担忧，如果转录未经过双重检查或医务人员无法访问录音以验证其正确性的话。“如果你拿走事实真相，就无法捕捉到错误，”他说。

Nabla表示，没有任何模型是完美的，他们的模型目前需要医务人员快速编辑和批准转录的笔记，但这可能会改变。

由于患者与医生的会议是保密的，很难知道AI生成的转录如何影响他们。加州州议员丽贝卡·鲍尔-卡汉（Rebecca Bauer-Kahan）表示，她今年早些时候带孩子去看医生时，拒绝签署健康网络提供的表格，该表格要求她同意将咨询音频与包括微软Azure在内的供应商共享。微软Azure是由OpenAI的最大投资者运营的云计算系统。鲍尔-卡汉不希望如此私密的医疗对话与科技公司共享。“授权书明确指出，营利性公司将有权拥有这些信息，”代表旧金山郊区部分地区的民主党州议员鲍尔-卡汉说，“我绝对不同意。”

约翰·穆尔健康系统的发言人本·德鲁（Ben Drew）表示，该健康系统遵守州和联邦隐私法。

(全文结束)