在脑机接口(BCI)领域取得突破性进展,加州大学伯克利分校和旧金山分校的研究团队找到了一种方法,可以为严重瘫痪的患者恢复自然语言。这项工作解决了长期以来困扰语音神经假体的一个问题——即从患者尝试说话到声音产生之间的时间滞后。通过利用基于人工智能的最新建模技术,研究人员开发了一种流式处理方法,能够在近乎实时的情况下将大脑信号合成为可听语音。
今天发表在《自然神经科学》上的这项技术标志着向使失去说话能力的人重新获得沟通能力迈出的关键一步。该研究得到了美国国立卫生研究院下属的国家耳聋及其他交流障碍研究所(NIDCD)的支持。
“我们的流式处理方法将类似Alexa和Siri等设备的快速语音解码能力带到了神经假体中,”加州大学伯克利分校电气工程和计算机科学系Robert E. and Beverly A. Brooks助理教授、该研究的共同首席研究员Gopala Anumanchipalli说。“我们发现,使用类似的算法,我们可以解码神经数据,并首次实现近同步的语音流。结果是更自然流畅的语音合成。”
“这项新技术具有巨大的潜力,可以改善因严重瘫痪而影响说话能力的人的生活质量,”加州大学旧金山分校神经外科医生Edward Chang说,他是该研究的高级共同首席研究员。Chang领导了加州大学旧金山分校的一项临床试验,旨在使用高密度电极阵列直接从大脑表面记录神经活动来开发语音神经假体技术。“令人兴奋的是,最新的AI进步正在极大地加速BCI技术在不久的将来在实际现实生活中的应用。”
研究人员还展示了他们的方法可以很好地与其他各种脑传感接口配合使用,包括微电极阵列(MEA),其中电极穿透大脑表面,或非侵入性记录(sEMG),使用面部传感器测量肌肉活动。
“通过在其他无声语音数据集上展示准确的大脑-语音合成,我们表明这项技术不仅限于特定类型的设备,”加州大学伯克利分校电气工程和计算机科学系博士生、该研究的共同第一作者Kaylo Littlejohn说。“只要信号良好,同样的算法可以用于不同的模式。”
将神经数据解码为语音
根据该研究的共同第一作者、加州大学伯克利分校电气工程和计算机科学系博士生Cheol Jun Cho的说法,这种神经假体通过从控制言语产生的运动皮层采样神经数据,然后使用AI将大脑功能解码为语音。
“我们实际上是在拦截信号,在思想被转化为发音的过程中,以及在运动控制过程中,”他说。“因此,我们解码的是在思考发生后,决定说什么、使用什么词以及如何移动声带肌肉之后。”
为了收集训练算法所需的数据,研究人员首先让他们的受试者Ann看屏幕上的提示——例如短语:“嘿,你好吗?”——然后默默地尝试说出这个句子。
“这给了我们将她生成的神经活动窗口与她试图说的话之间的映射,而无需她在任何时刻发声,”Littlejohn说。
由于Ann没有任何残留的发声能力,研究人员没有目标音频(输出)来映射神经数据(输入)。他们通过使用AI填补缺失的细节来解决这一挑战。
“我们使用了一个预训练的文本到语音模型来生成音频并模拟目标,”Cho说。“我们还使用了Ann受伤前的声音,因此当我们解码输出时,听起来更像她。”
近实时流式语音
在他们之前的BCI研究中,研究人员的解码延迟很长,大约需要8秒才能解码一个句子。采用新的流式处理方法,可以在受试者尝试说话时近乎实时地生成可听输出。
为了测量延迟,研究人员采用了语音检测方法,这使他们能够识别出表示开始说话意图的大脑信号。
“我们可以看到相对于这个意图信号,在1秒内,我们就可以发出第一个声音,”Anumanchipalli说。“并且该设备可以连续解码语音,因此Ann可以不间断地继续说话。”
这种更快的速度并没有牺牲精度。更快的接口提供了与他们之前的非流式处理方法相同的高水平解码准确性。
“这是很有希望的,”Littlejohn说。“以前还不知道能否从大脑中实时流式传输可理解的语音。”
Anumanchipalli补充说,研究人员并不总是知道大规模AI系统是在学习和适应,还是只是模式匹配和重复部分训练数据。因此,研究人员还测试了实时模型合成不在训练数据集词汇表中的单词的能力——在这种情况下,是从北约音标字母中选取的26个罕见单词,如“Alpha”、“Bravo”、“Charlie”等。
“我们想看看我们是否能推广到未见过的单词,并真正解码Ann的说话模式,”他说。“我们发现我们的模型在这方面做得很好,这表明它确实在学习声音或语音的基本组成部分。”
Ann也参与了2023年的研究,她与研究人员分享了她对新的流式合成方法与早期研究的文本到语音解码方法的体验比较。
“她传达说,流式合成是一种更具意志控制的模式,”Anumanchipalli说。“听到自己的声音在近乎实时的情况下增加了她的身体感。”
未来方向
这项最新的工作使研究人员更接近于实现BCI设备的自然语言,同时为未来的进展奠定了基础。
“这个概念验证框架是一个很大的突破,”Cho说。“我们乐观地认为,我们现在可以在每个层面取得进展。例如,在工程方面,我们将继续推动算法,看看我们如何能够更好地更快地生成语音。”
研究人员还专注于在输出语音中构建表达性,以反映在说话过程中发生的音调、音高或响度的变化,例如当某人兴奋时。
“这是我们正在进行的工作,试图看看我们实际上可以从大脑活动中解码这些副语言特征的程度,”Littlejohn说。“这是一个长期存在的问题,即使在传统的音频合成领域也是如此,这将弥合到完全自然主义的差距。”
除了NIDCD的支持外,这项研究还得到了日本科学技术署的Moonshot研发计划、Joan和Sandy Weill基金会、Susan和Bill Oberndorf、Ron Conway、Graham和Christina Spencer、William K. Bowes Jr.基金会、Rose Hills Innovator和UC Noyce Investigator项目以及美国国家科学基金会的支持。
(全文结束)

