使用人工智能将脑信号转化为语音

为了向可以说的人提供声音,神经科学家设计了一种可以将大脑信号转换为语音的设备。

尽管该技术可以合成大多数可理解的句子,但它仍足够在实验室外使用。它的创建者在4月24日发表于《自然》的一项研究中描述了他们的语音解码设备。

佐治亚州亚特兰大市埃默里大学的神经工程师Chethan Pandarinath说,科学家以前曾利用人工智能来翻译大脑活动中的单个单词2,3,其中大部分是一个音节。他说:“从单音节到句子的跳跃在技术上是相当具有挑战性的,并且是使当前作品如此令人印象深刻的原因之一。”

映射动作

许多失去说话能力的人使用的技术要求他们做一些微小的动作来控制选择屏幕上字母或单词的光标。患有运动神经元疾病的英国物理学家霍金就是一个著名的例子。加州大学旧金山分校的神经外科负责人爱德华·张(Edward Chang)说,他使用了一种由脸颊上的肌肉激活的发声装置。

因为使用这种设备的人必须逐字母键入单词,所以这些设备可能非常慢,每分钟最多可以产生10个单词。自然口语平均每分钟150个单词。他说:“提高我们的声带效率。”因此,Chang和他的团队决定在构建解码器时对人声系统进行建模。

研究人员与五名在癫痫治疗过程中将电极植入其大脑表面的人一起工作。首先,当参与者大声朗读数百个句子时,团队记录了大脑活动。然后,Chang和他的同事们将这些录音与以前的实验数据相结合,确定了舌头,嘴唇,下颌和喉部的运动如何产生声音。

该团队针对这些数据训练了一种深度学习算法,然后将该程序整合到其解码器中。该设备将大脑信号转换为估计的声道运动,并将这些运动转换为合成语音。Chang说,听过101个合成句子的人平均可以理解70%的单词。

参与者阅读句子的两个示例,然后是他们大脑活动生成的句子的合成版本。

下载MP3积分:加州大学旧金山分校神经外科张实验室

在另一个实验中,研究人员要求一个参与者大声朗读句子,然后通过移动其嘴而不会发出声音来模仿相同的句子。Chang说,该测试中合成的句子的质量低于可听语音所创建的句子,但结果仍然令人鼓舞。

可理解的未来

加利福尼亚圣地亚哥州立大学的神经科学家斯蒂芬妮·里猫斯说,通过将大脑活动映射到声道运动并将其翻译成声音而产生的语音比通过将大脑活动直接映射到声音产生的语音更容易理解。

西雅图华盛顿大学的神经工程师艾米·奥尔斯伯恩(Amy Orsborn)说,但是尚不清楚新的语音解码器是否可以使用人们只会想到的单词。她说:“他的论文做得很好,证明了它适用于模仿语音。”“当某人不动嘴时,这将如何工作?” / p>

伊利诺伊州芝加哥西北大学的神经病学家Marc Sl​​utzky表示同意,并说解码器的性能还有待改进。他指出,听众通过从一组选择中选择单词来识别合成语音。随着选择数量的增加,人们在理解单词时会遇到更多麻烦。

这项研究是非常重要的一步,但是要使合成语音易于理解还有很长的路要走。斯卢茨基说。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。