1. 衔接式 Concatenative TTS:这里首先记住单个的语音片段,然后需要重新生成时,再把这些声音片段联合起来。但是,这种方法不能扩展,因为它只能重现记忆中的声音片段,并且如果没有从开始记忆语音片段,就不能生成新的讲话人或不同类型的语音。
  2. 参数式 Parametric TTS:这里创建一个模型,用以存储所有要合成语音的音频特征。在 WaveNet 之前,使用参数式 TTS 生成的音频比衔接式 TTS 更不自然。WaveNet 通过直接对音频的产生过程建模改进了当前最先进的技术,而不是使用以前的中间信号处理算法。

WaveNet

Wavenet由DeepMind提出,是一种利用神经网络系统对原始音频波形(Raw SoundWave)建模的技术,生成的音频质量优于所有的文本转语音(Text-to-Speech,TTS)系统,将计算机输出音频与人类自然语音差距缩小50%,被称为世界最佳。