谷歌用人工智能合成语音效果逼真难以分辨

作者：谷歌推广
发表时间：2019-12-28 07:39
来源：迅龙网络

不同于其他以复杂语言学和声学特征为输入的文本转语音(TTS)系统，Tacotron 2通过学习人类对话和文本记录并进行训练，以生成更贴近人声的语音。Tacotron 2主要由两个深度神经网络组成，而且已经是谷歌研发的第二代类似技术。

尽管Tacotron 2在听众试验中得到了不错的反响，但是谷歌团队认为它还不够完美。“我们的样本听起来不错，但仍有一些棘手的问题有待解决。例如，我们的系统在复杂词语发音上存在困难，在极端情况下甚至会随机产生奇怪的噪音。而且，它还无法生成实时音频。我们还不能控制它所产生的语音，无法引导它具有高兴或悲伤的情绪。”

Tacotron 2利用的语音合成技术，又称TTS，是现在很多移动产品、应用上不可或缺的技术模块。常见的语音交互应用、导航、语音控制，甚至是为视力障碍者设计的产品中都需要语音合成技术的支持。此前很长的一段时间中，语音合成技术都采用了拼接技术，需要记录大量语料才能合成，而这一方法不仅要处理大量的数据，而且说话人一旦改变就需要重新记录和处理。

谷歌研究团队表示，即使是非常复杂的单词和人名，Tacotron 2也可以准确发音，并根据不同的标点符号进行区分，甚至还能完美地念完一段绕口令。具体比如当Tacotron2读到大写单词时会默认加重语气，也能处理一些用户的打字错误。

研究团队表示，听众评价Tacotron 2的语音水平与专业录音相当。不过目前该系统只进行了英语女声方面的训练，如有需要发出男性声音，谷歌团队还将再对其进行培训。

前不久有外媒报道，谷歌推出了一款全新的文字转语音系统，名为“Tacotron 2”，它具有惊人的发音准确性，声音更加自然，文本阅读效果几乎和真人声音一样，难以分辨。这款系统具体是什么情况呢?上海谷歌推广小编为大家介绍一下。

技术支持

谷歌用人工智能合成语音 效果逼真难以分辨

谷歌用人工智能合成语音效果逼真难以分辨