今天,总部位于哥本哈根的医疗AI公司Corti推出了Symphony语音转文本模型,这是一种新一代临床级语音识别模型,专为实时听写、对话转录和批量音频处理而设计,其准确率是迄今为止针对这一特定用例记录的最高水平。
Corti联合创始人兼首席执行官Andreas Cleve在接受VentureBeat独家视频采访时说道:"我们致力于确保我们的AI听写员能够获得医生、医疗从业者和患者的信任……整个医疗系统。"
该公司提供的性能数据清晰地揭示了企业AI的现状:在高度监管的专业领域,特定领域的模型可以击败基础模型提供商。
在新发表的研究论文中,Corti透露,与领先的通用语音模型和API相比,其新的临床级语音模型在医学术语方面的词错误率(WER)降低了高达93%。
在英语医学术语方面,Symphony语音转文本模型实现了低至1.4%的WER。相比之下,OpenAI的语音模型WER为17.7%,ElevenLabs为18.1%,Whisper为17.4%,而Parakeet为18.9%。
Corti的这一宣布对医疗构建者来说是一个关键转折点。虽然像OpenAI的Whisper这样的通用API足以满足广泛领域的转录需求,但它们经常在医疗缩写、复杂的药物剂量、速记以及嘈杂的急诊室环境中出现问题。Symphony语音转文本旨在通过为开发者提供一种高度专业化、面向生产的API来解决这一问题,该API从头开始专为临床工作流程设计。
代理时代要求无瑕疵的数据输入
Symphony语音转文本的发布凸显了医疗行业使用语音技术的根本转变。几十年来,医疗语音识别主要侧重于生成静态文本文档供医生审阅——相当于记事本的数字替代品。
但随着医疗行业迅速进入技术专家所说的"代理时代",即自主AI代理积极参与临床决策、电子健康记录(EHR)导航和实时支持,转录本已不再是最终产品,而是基础数据层。
Corti在提供给VentureBeat的声明中表示:"语音一直是医疗领域最重要的输入之一。正在改变的是捕捉到词语之后发生的事情。在代理时代,语音识别需要的不仅仅是生成转录本——我们需要为AI系统提供准确的临床事实进行推理。如果模型听错了药物、剂量或症状,那么后续的每一步都会变得不可靠。Symphony语音转文本为医疗构建者提供了一个足够精确的语音层,能够在临床现实中蓬勃发展。"
高词错误率带来的连锁风险正在此处显现。如果通用AI模型在转录时产生幻觉——将"甲状腺功能亢进"变成"甲状腺功能减退",或误解关键药物剂量——那么每个依赖该转录本的后续AI代理都将基于被污染的数据运行。Corti的架构通过直接从API生成结构化的、临床可用的输出来减轻这种风险,帮助下游AI应用基于清晰的事实而非混乱的非格式化文本进行推理。
这一点在Corti的实体召回基准测试中最为明显。Symphony语音转文本在格式化临床实体(如剂量、测量和日期)上达到了惊人的98.3%召回率。相比之下,Corti报告称,最强的通用基准模型对相同实体的最大召回率仅为44.3%。
对于正在构建环境AI文档工具的开发者来说,这54%的差距决定了该工具是节省医生时间还是构成医疗责任。
挑战行业领导者
虽然Corti与OpenAI和ElevenLabs等现代大语言模型构建者的基准测试结果令人瞩目,该公司也在瞄准传统的医疗转录巨头。
多年来,临床医生听写的黄金标准一直是Dragon Medical One。然而,这些传统系统历史上仅针对有意的临床医生听写进行优化,而不是作为环境AI、复杂多方对话或实时临床支持工具的基础架构。
在真实世界英语医疗听写的评估中,Corti实现了4.6%的WER,优于Dragon的5.7%(相对提高了19%)。
此外,Corti在医疗术语召回率上也高于Dragon(93.5%对92.9%)。
通过通过API端点提供这种级别的准确性,Corti正在使第三方开发者、EHR供应商和虚拟护理平台能够构建自己的自定义听写和环境监听工具,这些工具优于行业中的传统现有工具。
Cleve表示:"我们希望人们在我们的模型基础上构建应用程序。目标是尽可能广泛地扩散技术,以便它能够尽可能地帮助患者及其医生和专业人士。"
对Cleve和他的联合创始人来说,这一使命是个人的:Cleve自己的母亲是一名被患者攻击的医疗专业人员,多年来一直在努力康复。他寻求通过改进医疗流程来纪念她的牺牲。
解决全球医疗模型难题
医疗保健的需求远远超出了英语医院的范围,全球医疗系统在历史上一直未被临床NLP模型充分服务。早期采用者已经在语言要求苛刻的环境中利用Corti的新模型,证明了该技术在复杂国际市场中的可行性。
例如,瑞士要求在单一医疗机构内同时提供多种语言的护理服务。它是世界上对多语言医疗语音模型最严格的考验场所之一。Corti的Symphony模型在这些非英语测试中表现出巨大的性能提升,在德语中实现了2.4%的WER(而次佳系统为13.0%),在法语中为3.9%的WER(而次佳系统为10.6%)。
瑞士医疗技术提供商Voicepoint的解决方案与业务发展主管Pierre Corboz在提供给VentureBeat的声明中说:"在临床对话中,每个单词都很重要——遗漏的药物名称、听错的剂量或错误转录的症状都可能改变会诊的含义。Symphony在临床术语上的准确性为我们提供了基础,使我们能够通过Voicepoint Xenon平台将更多可信的AI功能引入临床工作流程。当Corti改进语音层时,我们在瑞士共同构建的工作流程对临床医生来说变得更精准、更安全、更有用。"
AI垂直专业化正在取得成效
今天的Symphony语音转文本公告并非孤立事件;它是Corti在过去几周内积极推行的战略叙事的集大成者。
更广泛的Symphony平台——为全球EHR供应商和生命科学组织网络提供临床和行政应用——一直在系统地证明垂直AI实验室对水平技术巨头的防御能力。
这标志着Corti在短短六周内发布的第三个主要基准,涉及医疗保健AI性能的不同层面。
4月份,该公司透露,其Symphony医疗编码系统在临床准确性基准测试中比通用模型高出25%以上,解决了医疗保健中最复杂的工作流程之一。
就在上周,Corti宣布其旗舰临床级模型在OpenAI自己的医疗保健基准HealthBench Professional上超过了OpenAI。
综合考虑,这三个数据点——医疗编码、临床推理和语音转文本准确性——说明了企业技术领域日益增长的共识:通用模型在受监管行业正达到天花板。
医院中部署的模型必须固有地理解复杂的首字母缩略词、突然的中断、医疗速记、特定专业的语言和严格的合规约束。通过专门针对这些独特的边缘情况训练,像Corti这样的垂直AI实验室正在建立一个强大的护城河,仅依靠对通用大型语言模型的API调用的公司无法轻易跨越。
可用性与产品阵容
开发者显然注意到了性能差距。根据提供给VentureBeat的势头数据,Corti的平台在季度至今比较中看到了30%的新注册增长,表明开发者和医疗保健构建者正积极倾向于垂直的、临床级模型,而不是通用API。
Corti已经为包括英国国家医疗服务体系(NHS)在内的主要医疗系统每年服务超过1亿患者,它将Symphony语音转文本定位为下一代医疗软件的默认引擎。
需要注意的是,Corti今天并没有推出总体的Symphony平台;相反,Symphony语音转文本作为该更大生态系统内的一个新、独立功能运行,可通过其自己的API端点访问。
Symphony语音转文本从今天起全面可用。开发者和企业架构师可以通过Corti API控制台访问这些模型,并提供完整的技术文档,以帮助将其临床级语音层集成到现有应用程序中。
为了研究透明度,Corti还发布了详细说明其方法的完整研究论文,以及一个单独的比较工具,旨在支持行业范围内对医疗语音识别系统的透明评估。
随着医疗行业继续迅速采用AI驱动的自动化,基础数据层比以往任何时候都更加关键。Corti的最新发布强烈提醒我们,在医疗领域,通用AI根本不够好。未来属于专家。
【全文结束】

