不同于其他以复杂语言学和声学特征为输入的文本转语音(TTS)系统,Tacotron 2通过学习人类对话和文本记录并进行训练,以生成更贴近人声的语音。Tacotron 2主要由两个深度神经网络组成,而且已经是谷歌研发的第二代类似技术。
尽管Tacotron 2在听众试验中得到了不错的反响,但是谷歌团队认为它还不够完美。“我们的样本听起来不错,但仍有一些棘手的问题有待解决。例如,我们的系统在复杂词语发音上存在困难,在极端情况下甚至会随机产生奇怪的噪音。而且,它还无法生成实时音频。我们还不能控制它所产生的语音,无法引导它具有高兴或悲伤的情绪。”
Tacotron 2利用的语音合成技术,又称TTS,是现在很多移动产品、应用上不可或缺的技术模块。常见的语音交互应用、导航、语音控制,甚至是为视力障碍者设计的产品中都需要语音合成技术的支持。此前很长的一段时间中,语音合成技术都采用了拼接技术,需要记录大量语料才能合成,而这一方法不仅要处理大量的数据,而且说话人一旦改变就需要重新记录和处理。
谷歌研究团队表示,即使是非常复杂的单词和人名,Tacotron 2也可以准确发音,并根据不同的标点符号进行区分,甚至还能完美地念完一段绕口令。具体比如当Tacotron2读到大写单词时会默认加重语气,也能处理一些用户的打字错误。
研究团队表示,听众评价Tacotron 2的语音水平与专业录音相当。不过目前该系统只进行了英语女声方面的训练,如有需要发出男性声音,谷歌团队还将再对其进行培训。
前不久有外媒报道,谷歌推出了一款全新的文字转语音系统,名为“Tacotron 2”,它具有惊人的发音准确性,声音更加自然,文本阅读效果几乎和真人声音一样,难以分辨。这款系统具体是什么情况呢?上海谷歌推广小编为大家介绍一下。