16bit-脉冲编码调制 16 bit Pulse-code Modulation, PCM

16bit 代表这个⾳频将会按照信号的振幅取离散的 $2^{16}$ 个值,即 -32768~+32767,振幅越⼤,声⾳的强度越⼤。⾳频信号的另⼀个重要参数是采样率,⽐如采样率为 44.1 kHz,意思就是每秒采样 441000 个点。

如果需要提取⾳频信号中的信息,就需要对 采样时间 × 采样率数⽬的点 做预处理。
⾸先需要把振幅从整数转变为-1~+1 之间的浮点数,即对所有的振幅先加 32768,除以 32768,然后减去 1.0。我们可以画出振幅随着时间的变化。

预加重

在数学上,预加重相当于⼀个⾼通滤波器,起到了提⾼⾼频信号分量、滤除低频噪声的作⽤。在实际应⽤中,预加重是⼀个可选的预处理步骤,对于信号中噪声的滤除有⼀定的效果。

  1. 有限长单位冲激响应滤波器 Finite Impulse Response, FIR
  2. 递归滤波器,无限脉冲响应数字滤波器 Infinite Impulse Response, IIR

频率 Frequency & 幅度 Magnitude & 相位 Phase

音高 Pitch & 音量 Loudness & 音色 Timbre

分贝 dB

语音特征

  • Spectrogram
  • Fbanks
  • MFCC
  • PLP
  • Pitch
  • ∆/∆∆

模数转换 Analog to Digital Conversion,ADC

音素 Phoneme

描述一种语言的基本单位被称为音素Phoneme,例如BRYAN这个词就可以看做是由B, R, AY, AX, N五个音素构成的。英语中大概有50多个音素,可以用50几个HMM state来表示这些音素。

掩蔽效应 Masking Effects

频谱图 Spectrogram

声学模型 Acoustic model

语音中很多发音都是连在一起的,很难区分,所以一般用左中右三个HMM state来描述一个音素。举例来说BRYAN这个词中的R音素就变成了用B-R, R, R-AY三个HMM state来表示。这样BRYAN这个词根据上下文就需要15个state了,根据所有单词的上下文总共大概需要几千个HMM state,这种方式属于context dependent模型中的三音素triphone模式。这个HMM state的个数在各家语音识别系统中都不一样,是一个需要调的参数。所以声学模型就是如何设置HMM state。

语音模型 Language Model, LM

Lexicon

帧 Frame

Chunk

Mean Opinion Score, MOS

MOS测试的主要原理是让测评人根据5个等级划分对测试语音的主观感受进行打分,它既可以用于对语音质量进行主观评价,也可以用于对说话人特征相似度的评价。MOS 分是对所有测试语句和所有测评人的综合平均结果。

Shuang Z, Bakis R, Qin Y. IBM voice conversion systems for 2007 TC⁃STAR evaluation‌[J]. Tsinghua Science & Technology, 2008, 13(4): 510⁃514.

An ABX Blind Test, ABX

盲听测试(ABX测试)主要针对转换后语音的说话人特征相似度进行转换效果评价,借鉴了说话人识别的原理。测试过程中,测评人分别测听3段语音A、B和X,并判断在语音的个性特征方面语音A还是B更接近于X。其中,X是转换后得到的语音,而A和B分别为源语音和目标语音。最后统计所有测评人员的判决结果,计算出听起来像目标语音的百分比。

Text to Speech, TTS

Voice Conversion, VC

Voice conversion (VC) is a technique to modify the speech from source speaker to make it sound like being uttered by target speaker while keeping the linguistic content unchanged

声码器 vocoder

声码器(vocoder)语音信号某种模型的语音分析合成系统。在传输中只利用模型参数,在编译码时利用模型参数估计和语音合成技术的语音信号编译码器,一种对话音进行分析和合成的编、译码器,也称话音分析合成系统或话音频带压缩系统。它是压缩通信频带和进行保密通信的有力工具。

隐马尔可夫模型 Hidden Markov Model, HMM

强制对齐

训练DNN的时候,需要知道每一帧对应的是什么音素(甚至HMM状态)。而一般语音数据的标注,只有音素串,并不知道每个音素(或HMM状态)的起止时间。“强制对齐”就是利用一个GMM-HMM模型,求出每个音素(或HMM状态)的起止时间。

基于联结时序分类(CTC)的声学模型不再需要对训练的音频序列和文本序列进行强制对齐

Linguistic

双语者 Bilingual

参考

[1] CSLT微信公众号-语音识别基础:(一)语音是什么

[2] CSLT微信公众号-语音识别基础:(二)语音识别方法

[3] 语音识别基础:(三)完整的语音识别实验

[4] 陆军工程大学-语音转换技术研究现状及展望(2019)