Corti新型语音转文本模型Symphony在医学术语准确性上超越OpenAI，彰显专业AI的价值 - AI与医疗健康

今天，总部位于哥本哈根的医疗AI公司Corti推出了Symphony语音转文本模型，这是一种新一代临床级语音识别模型，专为实时听写、对话转录和批量音频处理而设计，其准确率是迄今为止针对这一特定用例记录的最高水平。

Corti联合创始人兼首席执行官Andreas Cleve在接受VentureBeat独家视频采访时说道："我们致力于确保我们的AI听写员能够获得医生、医疗从业者和患者的信任……整个医疗系统。"

该公司提供的性能数据清晰地揭示了企业AI的现状：在高度监管的专业领域，特定领域的模型可以击败基础模型提供商。

在新发表的研究论文中，Corti透露，与领先的通用语音模型和API相比，其新的临床级语音模型在医学术语方面的词错误率(WER)降低了高达93%。

在英语医学术语方面，Symphony语音转文本模型实现了低至1.4%的WER。相比之下，OpenAI的语音模型WER为17.7%，ElevenLabs为18.1%，Whisper为17.4%，而Parakeet为18.9%。

Corti的这一宣布对医疗构建者来说是一个关键转折点。虽然像OpenAI的Whisper这样的通用API足以满足广泛领域的转录需求，但它们经常在医疗缩写、复杂的药物剂量、速记以及嘈杂的急诊室环境中出现问题。Symphony语音转文本旨在通过为开发者提供一种高度专业化、面向生产的API来解决这一问题，该API从头开始专为临床工作流程设计。

代理时代要求无瑕疵的数据输入

Symphony语音转文本的发布凸显了医疗行业使用语音技术的根本转变。几十年来，医疗语音识别主要侧重于生成静态文本文档供医生审阅——相当于记事本的数字替代品。

但随着医疗行业迅速进入技术专家所说的"代理时代"，即自主AI代理积极参与临床决策、电子健康记录(EHR)导航和实时支持，转录本已不再是最终产品，而是基础数据层。

Corti在提供给VentureBeat的声明中表示："语音一直是医疗领域最重要的输入之一。正在改变的是捕捉到词语之后发生的事情。在代理时代，语音识别需要的不仅仅是生成转录本——我们需要为AI系统提供准确的临床事实进行推理。如果模型听错了药物、剂量或症状，那么后续的每一步都会变得不可靠。Symphony语音转文本为医疗构建者提供了一个足够精确的语音层，能够在临床现实中蓬勃发展。"

高词错误率带来的连锁风险正在此处显现。如果通用AI模型在转录时产生幻觉——将"甲状腺功能亢进"变成"甲状腺功能减退"，或误解关键药物剂量——那么每个依赖该转录本的后续AI代理都将基于被污染的数据运行。Corti的架构通过直接从API生成结构化的、临床可用的输出来减轻这种风险，帮助下游AI应用基于清晰的事实而非混乱的非格式化文本进行推理。

这一点在Corti的实体召回基准测试中最为明显。Symphony语音转文本在格式化临床实体（如剂量、测量和日期）上达到了惊人的98.3%召回率。相比之下，Corti报告称，最强的通用基准模型对相同实体的最大召回率仅为44.3%。

对于正在构建环境AI文档工具的开发者来说，这54%的差距决定了该工具是节省医生时间还是构成医疗责任。

挑战行业领导者

虽然Corti与OpenAI和ElevenLabs等现代大语言模型构建者的基准测试结果令人瞩目，该公司也在瞄准传统的医疗转录巨头。

多年来，临床医生听写的黄金标准一直是Dragon Medical One。然而，这些传统系统历史上仅针对有意的临床医生听写进行优化，而不是作为环境AI、复杂多方对话或实时临床支持工具的基础架构。

在真实世界英语医疗听写的评估中，Corti实现了4.6%的WER，优于Dragon的5.7%（相对提高了19%）。

此外，Corti在医疗术语召回率上也高于Dragon（93.5%对92.9%）。

通过通过API端点提供这种级别的准确性，Corti正在使第三方开发者、EHR供应商和虚拟护理平台能够构建自己的自定义听写和环境监听工具，这些工具优于行业中的传统现有工具。

Cleve表示："我们希望人们在我们的模型基础上构建应用程序。目标是尽可能广泛地扩散技术，以便它能够尽可能地帮助患者及其医生和专业人士。"

对Cleve和他的联合创始人来说，这一使命是个人的：Cleve自己的母亲是一名被患者攻击的医疗专业人员，多年来一直在努力康复。他寻求通过改进医疗流程来纪念她的牺牲。

解决全球医疗模型难题

医疗保健的需求远远超出了英语医院的范围，全球医疗系统在历史上一直未被临床NLP模型充分服务。早期采用者已经在语言要求苛刻的环境中利用Corti的新模型，证明了该技术在复杂国际市场中的可行性。

例如，瑞士要求在单一医疗机构内同时提供多种语言的护理服务。它是世界上对多语言医疗语音模型最严格的考验场所之一。Corti的Symphony模型在这些非英语测试中表现出巨大的性能提升，在德语中实现了2.4%的WER（而次佳系统为13.0%），在法语中为3.9%的WER（而次佳系统为10.6%）。

瑞士医疗技术提供商Voicepoint的解决方案与业务发展主管Pierre Corboz在提供给VentureBeat的声明中说："在临床对话中，每个单词都很重要——遗漏的药物名称、听错的剂量或错误转录的症状都可能改变会诊的含义。Symphony在临床术语上的准确性为我们提供了基础，使我们能够通过Voicepoint Xenon平台将更多可信的AI功能引入临床工作流程。当Corti改进语音层时，我们在瑞士共同构建的工作流程对临床医生来说变得更精准、更安全、更有用。"