研究人员开发了一种脑-计算机接口(BCI),可以从大脑活动中近乎实时地合成自然语音,为严重瘫痪的人恢复声音。该系统解码来自运动皮层的信号,并使用人工智能将这些信号转换成可听语音,延迟时间不到一秒钟。
与以前的系统不同,这种方法保持了流畅性,并允许连续语音,甚至可以生成个性化的声音。这一突破使科学家更接近于让失去语言能力的人能够仅通过大脑活动进行实时交流。
关键事实:
- 近实时语音: 新的BCI技术在1秒内流式传输可理解的语音。
- 个性化声音: 该系统使用受伤前的录音来合成用户自己的声音。
- 设备灵活性: 可以与多种脑感应技术配合使用,包括非侵入式选项。
加州大学伯克利分校和旧金山分校的研究团队在脑-计算机接口领域取得了突破,为严重瘫痪的人恢复自然语音提供了可能。
这项工作解决了语音神经假体中的长期延迟问题,即从受试者尝试说话到声音产生之间的时间滞后。利用最近在基于人工智能的建模方面的进展,研究人员开发了一种流式方法,将近乎实时地将大脑信号合成为可听语音。
如《自然·神经科学》杂志报道,这项技术代表了使失去说话能力的人能够交流的关键一步。该研究得到了美国国立卫生研究院下属的国家耳聋和其他沟通障碍研究所的支持。
“我们的流式方法将类似Alexa和Siri设备的快速语音解码能力带到了神经假体中,”加州大学伯克利分校电气工程和计算机科学系的Gopala Anumanchipalli教授说。“我们发现,使用类似的算法,我们可以解码神经数据,并首次实现近乎同步的语音流。结果是更自然、流畅的语音合成。”
“这项新技术对改善严重瘫痪影响言语的人的生活质量具有巨大的潜力,”神经外科医生Edward Chang表示。Chang领导了UCSF的一项临床试验,旨在利用高密度电极阵列直接从大脑表面记录神经活动来开发语音神经假体技术。
“令人兴奋的是,最新的AI进展正在极大地加速BCI的实际应用。”
研究人员还展示了他们的方法可以与其他各种脑感应接口很好地配合,包括微电极阵列(MEA)和非侵入式记录(sEMG)。
“通过在其他无声语音数据集上展示准确的大脑到语音合成,我们表明这种技术不仅限于一种特定类型的设备,”加州大学伯克利分校电气工程和计算机科学系博士生Kaylo Littlejohn说。“只要信号良好,同一种算法可以用于不同的模式。”
解码神经数据为语音
根据研究共同主要作者Cheol Jun Cho的说法,神经假体通过从控制语音产生的运动皮层采样神经数据,然后使用人工智能将大脑功能解码为语音。
“我们实际上是在拦截信号,在思维被转化为发音的过程中,”他说。“所以我们解码的是在思考发生后,在决定说什么之后,在决定使用哪些单词和如何移动声带肌肉之后。”
为了收集训练算法所需的数据,研究人员首先让受试者Ann看着屏幕上的提示——比如短语:“嘿,你好吗?”——然后默默地尝试说出这句话。
“这给了我们将她生成的神经活动窗口与她试图说的目标句子之间的映射,而她不需要发声,”Littlejohn说。
由于Ann没有任何残留的发声能力,研究人员没有目标音频或输出来映射神经数据输入。他们通过使用人工智能来填补缺失的细节来解决这个问题。
“我们使用预训练的文本到语音模型生成音频并模拟目标,”Cho说。“我们还使用了Ann受伤前的声音,因此当我们解码输出时,听起来更像她。”
近乎实时地流式传输语音
在他们之前的研究中,研究人员的解码延迟很长,大约需要8秒才能解码一个句子。采用新的流式方法,可以在受试者尝试说话时近乎实时地生成可听输出。
为了测量延迟,研究人员使用了语音检测方法,这使他们能够识别出指示开始说话尝试的大脑信号。
“我们可以看到,相对于意图信号,在1秒内,我们就能发出第一个声音,”Anumanchipalli说。“并且该设备可以连续解码语音,因此Ann可以不间断地继续说话。”
这种更快的速度并没有牺牲精度。更快的接口提供的解码准确性与他们之前的非流式方法一样高。
“这是很有希望的,”Littlejohn说。“以前还不知道能否从大脑中实时流式传输可理解的语音。”
Anumanchipalli补充说,研究人员并不总是知道大规模AI系统是在学习和适应,还是只是匹配和重复训练数据的一部分。因此,研究人员还测试了实时模型合成不在训练数据词汇表中的词的能力——在这种情况下,是北约音标字母中的26个罕见词,如“Alpha”、“Bravo”、“Charlie”等。
“我们想看看我们是否可以推广到未见过的词,并真正解码Ann的说话模式,”他说。
“我们发现我们的模型在这方面做得很好,这表明它确实在学习声音或语音的基本组成部分。”
Ann也参与了2023年的研究,她向研究人员分享了她对新的流式合成方法与早期研究中的文本到语音解码方法的经验比较。
“她传达说,流式合成是一种更具意志控制的模式,”Anumanchipalli说。“听到自己几乎实时的声音增加了她的身体感。”
未来方向
这项最新工作使研究人员更接近于使用BCI设备实现自然语音,同时也为未来的进步奠定了基础。
“这个概念验证框架是一个很大的突破,”Cho说。“我们乐观地认为,我们现在可以在每个层面取得进展。例如,在工程方面,我们将继续推动算法,看看我们如何能更好地、更快地生成语音。”
研究人员还专注于在输出语音中构建表达性,以反映在说话过程中发生的音调、音高或响度的变化,例如当某人兴奋时。
“这是正在进行的工作,试图看看我们到底能多好地从大脑活动中解码这些副语言特征,”Littlejohn说。“这是一个长期存在的问题,即使在经典的音频合成领域也是如此,它将填补完整自然主义的空白。”
(全文结束)