【毕业要紧】 Speech 领域专业名词（持续更新）

16bit-脉冲编码调制 16 bit Pulse-code Modulation, PCM

16bit 代表这个⾳频将会按照信号的振幅取离散的 $2^{16}$ 个值，即 -32768～+32767，振幅越⼤，声⾳的强度越⼤。⾳频信号的另⼀个重要参数是采样率，⽐如采样率为 44.1 kHz，意思就是每秒采样 441000 个点。

如果需要提取⾳频信号中的信息，就需要对 采样时间 × 采样率数⽬的点 做预处理。
⾸先需要把振幅从整数转变为-1～+1 之间的浮点数，即对所有的振幅先加 32768，除以 32768，然后减去 1.0。我们可以画出振幅随着时间的变化。

预加重

在数学上，预加重相当于⼀个⾼通滤波器，起到了提⾼⾼频信号分量、滤除低频噪声的作⽤。在实际应⽤中，预加重是⼀个可选的预处理步骤，对于信号中噪声的滤除有⼀定的效果。

有限长单位冲激响应滤波器 Finite Impulse Response, FIR
递归滤波器，无限脉冲响应数字滤波器 Infinite Impulse Response, IIR

频率 Frequency & 幅度 Magnitude & 相位 Phase

音高 Pitch & 音量 Loudness & 音色 Timbre

分贝 dB

语音特征

Spectrogram
Fbanks
MFCC
PLP
Pitch
∆/∆∆

模数转换 Analog to Digital Conversion，ADC

音素 Phoneme

描述一种语言的基本单位被称为音素Phoneme，例如BRYAN这个词就可以看做是由B, R, AY, AX, N五个音素构成的。英语中大概有50多个音素，可以用50几个HMM state来表示这些音素。

掩蔽效应 Masking Effects

频谱图 Spectrogram

声学模型 Acoustic model

语音中很多发音都是连在一起的，很难区分，所以一般用左中右三个HMM state来描述一个音素。举例来说BRYAN这个词中的R音素就变成了用B-R, R, R-AY三个HMM state来表示。这样BRYAN这个词根据上下文就需要15个state了，根据所有单词的上下文总共大概需要几千个HMM state，这种方式属于context dependent模型中的三音素triphone模式。这个HMM state的个数在各家语音识别系统中都不一样，是一个需要调的参数。所以声学模型就是如何设置HMM state。

语音模型 Language Model, LM

Lexicon

帧 Frame

Chunk

Mean Opinion Score, MOS

MOS测试的主要原理是让测评人根据5个等级划分对测试语音的主观感受进行打分，它既可以用于对语音质量进行主观评价，也可以用于对说话人特征相似度的评价。MOS 分是对所有测试语句和所有测评人的综合平均结果。

Shuang Z, Bakis R, Qin Y. IBM voice conversion systems for 2007 TC⁃STAR evaluation‌[J]. Tsinghua Science & Technology, 2008, 13(4): 510⁃514.

盲听测试（ABX测试）主要针对转换后语音的说话人特征相似度进行转换效果评价，借鉴了说话人识别的原理。测试过程中，测评人分别测听3段语音A、B和X，并判断在语音的个性特征方面语音A还是B更接近于X。其中，X是转换后得到的语音，而A和B分别为源语音和目标语音。最后统计所有测评人员的判决结果，计算出听起来像目标语音的百分比。

Text to Speech, TTS

Voice Conversion, VC

Voice conversion (VC) is a technique to modify the speech from source speaker to make it sound like being uttered by target speaker while keeping the linguistic content unchanged

声码器 vocoder

声码器（vocoder)语音信号某种模型的语音分析合成系统。在传输中只利用模型参数，在编译码时利用模型参数估计和语音合成技术的语音信号编译码器，一种对话音进行分析和合成的编、译码器，也称话音分析合成系统或话音频带压缩系统。它是压缩通信频带和进行保密通信的有力工具。

隐马尔可夫模型 Hidden Markov Model, HMM

强制对齐

训练DNN的时候，需要知道每一帧对应的是什么音素（甚至HMM状态）。而一般语音数据的标注，只有音素串，并不知道每个音素（或HMM状态）的起止时间。“强制对齐”就是利用一个GMM-HMM模型，求出每个音素（或HMM状态）的起止时间。

基于联结时序分类(CTC)的声学模型不再需要对训练的音频序列和文本序列进行强制对齐

Linguistic

双语者 Bilingual

参考

[1] CSLT微信公众号-语音识别基础：（一）语音是什么

[2] CSLT微信公众号-语音识别基础：（二）语音识别方法

[3] 语音识别基础：（三）完整的语音识别实验

[4] 陆军工程大学-语音转换技术研究现状及展望(2019)