就在不久前,加州大学伯克利分校(UC Berkeley)与旧金山分校(UCSF)研究团队的一项突破性研究,让一位瘫痪患者在多年沉默之后,第一次通过脑信号‘开口说话’。他们联合开发出一种能够实时将大脑信号转化为自然语音的神经义体系统,该技术专为重度瘫痪、语言功能受损的患者设计,不仅大幅降低语音生成延迟,还显著提升语音流畅性和交互自然性,这并不是一项孤立的科研成果,而是人工智能、神经工程与医疗健康深度融合的一个缩影。


语音神经义体的长期瓶颈

传统语音神经义体虽可将脑信号转译为语音输出,但受限于系统响应速度和解码精度,其生成语音往往存在显著延迟,影响患者与外界的自然交流。语音流畅性与响应时效之间的平衡,长期以来都是该技术能否进入临床应用的关键障碍。

此次由Gopala Anumanchipalli教授(UC Berkeley)和Edward Chang教授(UCSF)联合主导的研究项目,首次实现了与智能语音助手如Siri和Alexa相媲美的流式语音解码能力,将人类大脑语言运动信号几乎同步地转化为清晰语音,有效提升了语音输出的自然度与交互性。将语音神经义体的解码速度提升至与商业语音助手相近的水平,使得患者能够更加自然、连贯地表达自我。

技术路径:从神经信号到语音的同步流式解码

高密度皮层电极阵列采集患者大脑中运动皮层的神经信号,重点捕捉控制语音器官运动的信号输出阶段。团队通过构建人工智能模型,对这些信号进行实时分析与语言解码,实现“意图发音”到“可听语音”的无缝衔接。

据研究共同第一作者、UC Berkeley 博士生 Cheol Jun Cho 介绍,神经义体并非解码“思考内容”,而是捕捉并翻译语言决策之后的神经运动指令。这种处理方式避开了更抽象、难以捕捉的语言生成阶段,显著提升了解码效率与输出质量。该解码的是在个体已经决定‘说什么’之后、大脑驱动口腔肌肉运动之间的神经信号,这个时间点最适合进行语音翻译。

从技术验证迈向临床

为了验证系统效能,研究团队邀请了一位严重瘫痪患者 Ann 参与测试。在试验中,Ann 被要求在看到文字提示后默念句子,例如“Hey, how are you?”。系统通过对其大脑信号的捕捉与解码,成功输出了近乎同步的语音内容。该方法用于皮层电极阵列(ECoG),也适配于更高侵入性微电极阵列(MEA)以及非侵入性面部肌电(sEMG)等多种脑/面部信号接口。

项目的研究团队表示,当前成果为“概念验证框架(proof-of-concept)”,但已具备向产品化、商业化发展的技术基础。未来研究将从以下几个方面展开深入:

  • 语音质量优化:提升语音合成的自然度与个性化表现;

  • 语言种类扩展:支持多语种语音模型,增强全球适配能力;

  • 算法效率迭代:进一步降低延迟、增强鲁棒性;

  • 用户适配性增强:实现跨个体通用或更快的个性化模型训练。

这个概念验证框架本身就是一个突破,”Cho 说,“我们对未来各个层面的进展充满信心。比如在工程方面,我们会继续优化算法,让语音合成更加自然、快速。

这一研究成果是朝着实现自然语音脑机接口迈出的关键一步,也为未来的发展奠定了基础。神经义体技术迈入“可沟通、可共情”的新时代对于数百万因神经损伤导致失语的患者而言,语言不仅是沟通工具,更是尊严与身份的象征。而这项技术的出现,正在将“失声者”的沉默打破,重建人类交流的桥梁。

点赞(0)

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部