Google 全新的 AI 翻译系统,不仅可以模仿你的语调,还能模仿你的声线
首先请听一下下面这三段录音。
https://s3.ifanr.com/wp-content/uploads/2019/05/21.wav
https://s3.ifanr.com/wp-content/uploads/2019/05/22.wav
https://s3.ifanr.com/wp-content/uploads/2019/05/23.wav
▲ 能够模仿语气和声线的翻译. 音频来自:Google AI Blog
如果我不说,你能听得出后面两段录音其实是第一段的机器翻译录音吗?
确实,与大家所熟知的生硬的语音翻译不同,这两段录音的翻译更加的自然,甚至还略带一点语气。这其实是出自于 Google 的全新翻译系统。
近日,Google 研究团队在博客上介绍了一款可以模仿语调、声线的全新 AI 翻译系统——Google Translatotron,而上面三段语音中的第二段就是 Google Translatotron 对第一段话的翻译,第三段则是在翻译的基础上对第一段的声线进行了一定程度上模仿。
▲图片来自:NYTimes
包括大家常用的 Google 翻译在内, 现在绝大多数的翻译系统的工作流程都分为三步:首先是将原语音识别成文本,然后对文本翻译目标语言,最后再进行文本到语音的合成。
由于在声音转化为文字时,原语音的语气等信息是无法进行转化的,所以也就解释了为什么我们现在所使用的翻译系统,语音生硬,且无法模仿原语音的语气的。
▲图片来自:KCBI
那 Google Translatotron 又是怎么做到的?这就要从 Google Translatotron 的工作方式说起了。这个全新的翻译系统,不通过语音来进行翻译、也不通过文字来进行翻译,而其实是通过图像来进行翻译的。
再具体一点就是当用户向 Google Translatotron 说出一段需要翻译的话后,系统就会根据这段语音生成一段声音图谱,然后经过大量针对性训练的系统 AI 会对图谱进行分析,并且根据分析结果再直接生成回一张目标语言的语音图谱,最后系统对声音图谱进行播放,就得出了像文章开头的录音那样,带有「语气」的翻译了。
▲Google Translatotron 的工作模型 . 图片来自:Google AI Blog
另外,该系统还接入了声源编码器来对声音进行处理,这就使得了 Translatotron 生成的目标语音不仅可以模仿用户原话中的语气,甚至可以在一定程度上模仿用户的声线。
负责该翻译系统的 Google AI 工程师 Ye Jia 以及 Ron Weiss 表示,省去中间转化为文本的步骤,不仅意味着翻译的速度更快了,也意味着更少的错误。
▲图片来自:The Economic Times
包括文章开头的几段音频在内,Google 在博客中放出了数段由 Translatotron 把西班牙语翻译成英语的测试样例。从样例中我们依旧可以听到机器生成语音的痕迹,但是相比起现在大多由文本生成的语音,Translatotron 所生成的语音显然更为自然,而且也可以在一定程度上模仿了原语音的语调以及声线,保留了更多重要的「情感信息」。有兴趣的同学可以点击该链接去收听更多的样例。
不过目前该研究还是处于实验室研究阶段。包括翻译准确性,嘈杂场景下的可用性等 Google Translatotron 都需要进行更多的优化。但是正如 Google 工程师们在博客中所说的一样,该项研究将会成为未来翻译技术的一个新起点。
题图来自:Fortune
欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: