AI助手本应让医生的工作更轻松,但许多研究人员发现其转录中存在不准确之处。据2024年ACM公平性、问责制和透明度会议(ACM Conference on Fairness, Accountability, and Transparency)上展示的一项研究,OpenAI的流行转录工具Whisper模型在处理音频记录时会添加未出现的对话。
据美联社报道,Whisper被大约30,000名临床医生和40个卫生系统用于记录与患者的互动。但多项研究表明,当Whisper在现实世界的音频(如市政厅录音)上进行测试时,会产生虚构或不准确的转录。OpenAI发言人Taya Christianson在一封电子邮件声明中告诉《医疗保健酿造》(Healthcare Brew):“我们对此问题非常重视,并不断努力提高模型的准确性,包括如何减少幻觉。”
康奈尔大学信息科学助理教授Allison Koenecke和该研究的合著者告诉《医疗保健酿造》,这项分析以及她进行的其他研究项目突显了AI转录工具在处理带有口音、断断续续的语音或语言障碍的人的语音数据时表现不佳的问题。她在研究中写道:“特别是,Whisper插入了虚构的陈述,这些陈述包括明确的危害,如煽动暴力、编造不准确的关联或暗示虚假权威。”在医疗环境中,这种错误可能会误解有言语障碍的患者,并导致评估记录不准确。
研究人员使用卡内基梅隆大学的AphasiaBank音频数据运行了Whisper,这些数据捕捉了与有言语不流利症状的人的互动。他们将AphasiaBank音频数据分为13,140段,每段10秒。手动审查后,他们发现187段包含幻觉——即文本输出无意义或不符合音频输入——约占测试案例的1%。这些文本转录幻觉在Google、Amazon、AssemblyAI和RevAI等其他商业语音转文字模型中并未出现,所有这些模型也接受了研究人员的审计。
可以采取什么措施?
研究发现,音频文件开头和结尾的静音似乎直接触发了幻觉。通过调整Whisper API的分贝阈值来修剪音频静音可以减少幻觉,Koenecke说。但最重要的是,这些AI工具需要由外部审计员在包含非母语英语使用者和有言语障碍或口音的人的多样化数据集上进行测试。她补充说,审计可能耗时且资源密集,因为研究人员需要找到模型从未见过的新测试数据。
“如果你问[AI]一些稍微超出其知识领域或稍微重新表述的问题,你可能会看到更多反映机器在现实世界场景中行为的故障模式,”Koenecke说。
放眼全局
随着第三方AI工具越来越多地融入现有的流程、技术和实践中,围绕同意、披露和隐私的担忧也在增加。非党派生物伦理研究机构Hastings Center的总裁Vardit Ravitsky告诉《医疗保健酿造》,目前关于AI在临床决策支持系统或环境记录中的使用指南或法规很少。纽约大学格罗斯曼医学院人口健康学助理教授Kellie Owens表示,个别机构应该监控这些工具的安全性和有效性。“医疗系统正在内部辩论如何处理这种技术的风险和收益,从某些方面来看,他们对其控制力有限,因为他们使用的是自己并未开发的工具,”她说。
包括科罗拉多州在内的多个州立法机构正在权衡关于如何监管AI在医疗保健中的使用的政策和法规提案。Ravitsky表示,AI在医疗保健中的一个新兴趋势是保持“人在回路”——即不允许这些设备或生成工具在没有提供者监督的情况下用于记录临床笔记或预测。她说:“我们认为它们不是自主的,现在还为时过早。”
此外,还有责任和追责问题,这些问题最终可能影响患者对医疗系统的信任。例如,当AI使用导致医疗伤害时,必须有人确定谁将承担责任,Ravitsky说。是制作模型的公司,还是使用该技术的医院或个别临床医生,后者可能在审查笔记时错过了某些内容?
“我们在法律和伦理上都没有明确谁应对伤害和错误负责,”她说。
(全文结束)

