【毕业要紧】 Tacotron & WaveNet Resources

衔接式 Concatenative TTS：这里首先记住单个的语音片段，然后需要重新生成时，再把这些声音片段联合起来。但是，这种方法不能扩展，因为它只能重现记忆中的声音片段，并且如果没有从开始记忆语音片段，就不能生成新的讲话人或不同类型的语音。
参数式 Parametric TTS：这里创建一个模型，用以存储所有要合成语音的音频特征。在 WaveNet 之前，使用参数式 TTS 生成的音频比衔接式 TTS 更不自然。WaveNet 通过直接对音频的产生过程建模改进了当前最先进的技术，而不是使用以前的中间信号处理算法。

WaveNet

Wavenet由DeepMind提出，是一种利用神经网络系统对原始音频波形（Raw SoundWave）建模的技术，生成的音频质量优于所有的文本转语音（Text-to-Speech，TTS）系统，将计算机输出音频与人类自然语音差距缩小50%，被称为世界最佳。