16bit-脉冲编码调制 16 bit Pulse-code Modulation, PCM
16bit 代表这个⾳频将会按照信号的振幅取离散的 $2^{16}$ 个值,即 -32768~+32767,振幅越⼤,声⾳的强度越⼤。⾳频信号的另⼀个重要参数是采样率,⽐如采样率为 44.1 kHz,意思就是每秒采样 441000 个点。
如果需要提取⾳频信号中的信息,就需要对 采样时间 × 采样率数⽬的点
做预处理。
⾸先需要把振幅从整数转变为-1~+1 之间的浮点数,即对所有的振幅先加 32768,除以 32768,然后减去 1.0。我们可以画出振幅随着时间的变化。
预加重
在数学上,预加重相当于⼀个⾼通滤波器,起到了提⾼⾼频信号分量、滤除低频噪声的作⽤。在实际应⽤中,预加重是⼀个可选的预处理步骤,对于信号中噪声的滤除有⼀定的效果。
- 有限长单位冲激响应滤波器 Finite Impulse Response, FIR
- 递归滤波器,无限脉冲响应数字滤波器 Infinite Impulse Response, IIR
频率 Frequency & 幅度 Magnitude & 相位 Phase
音高 Pitch & 音量 Loudness & 音色 Timbre
分贝 dB
语音特征
- Spectrogram
- Fbanks
- MFCC
- PLP
- Pitch
- ∆/∆∆
模数转换 Analog to Digital Conversion,ADC
音素 Phoneme
描述一种语言的基本单位被称为音素Phoneme,例如BRYAN这个词就可以看做是由B, R, AY, AX, N五个音素构成的。英语中大概有50多个音素,可以用50几个HMM state来表示这些音素。
掩蔽效应 Masking Effects
频谱图 Spectrogram
声学模型 Acoustic model
语音中很多发音都是连在一起的,很难区分,所以一般用左中右三个HMM state来描述一个音素。举例来说BRYAN这个词中的R音素就变成了用B-R, R, R-AY三个HMM state来表示。这样BRYAN这个词根据上下文就需要15个state了,根据所有单词的上下文总共大概需要几千个HMM state,这种方式属于context dependent模型中的三音素triphone模式。这个HMM state的个数在各家语音识别系统中都不一样,是一个需要调的参数。所以声学模型就是如何设置HMM state。
语音模型 Language Model, LM
Lexicon
帧 Frame
Chunk
Mean Opinion Score, MOS
MOS测试的主要原理是让测评人根据5个等级划分对测试语音的主观感受进行打分,它既可以用于对语音质量进行主观评价,也可以用于对说话人特征相似度的评价。MOS 分是对所有测试语句和所有测评人的综合平均结果。
Shuang Z, Bakis R, Qin Y. IBM voice conversion systems for 2007 TC⁃STAR evaluation[J]. Tsinghua Science & Technology, 2008, 13(4): 510⁃514.
An ABX Blind Test, ABX
盲听测试(ABX测试)主要针对转换后语音的说话人特征相似度进行转换效果评价,借鉴了说话人识别的原理。测试过程中,测评人分别测听3段语音A、B和X,并判断在语音的个性特征方面语音A还是B更接近于X。其中,X是转换后得到的语音,而A和B分别为源语音和目标语音。最后统计所有测评人员的判决结果,计算出听起来像目标语音的百分比。
Text to Speech, TTS
Voice Conversion, VC
Voice conversion (VC) is a technique to modify the speech from source speaker to make it sound like being uttered by target speaker while keeping the linguistic content unchanged
声码器 vocoder
声码器(vocoder)语音信号某种模型的语音分析合成系统。在传输中只利用模型参数,在编译码时利用模型参数估计和语音合成技术的语音信号编译码器,一种对话音进行分析和合成的编、译码器,也称话音分析合成系统或话音频带压缩系统。它是压缩通信频带和进行保密通信的有力工具。
隐马尔可夫模型 Hidden Markov Model, HMM
强制对齐
训练DNN的时候,需要知道每一帧对应的是什么音素(甚至HMM状态)。而一般语音数据的标注,只有音素串,并不知道每个音素(或HMM状态)的起止时间。“强制对齐”就是利用一个GMM-HMM模型,求出每个音素(或HMM状态)的起止时间。
基于联结时序分类(CTC)的声学模型不再需要对训练的音频序列和文本序列进行强制对齐