实验分为两个阶段,

  1. 搭建 基于MFCC 的 baseline;
  2. 之后是引入 wav2vec 获取语音的 CPC feature 进行实验。

DataSet

使用 LibSpeech 训练说话人识别模型和做语音预训练,使用 sitw 和 CN-Celeb 测试 ASV 系统性能

  • LibSpeech (Pretain & Dev)
  • sitw (Test)
  • CN-Celeb (Test)

Toolkit

  • Kaldi
  • fariseq-wav2vec

Sitw-dev

i-vector

Equel Error Rate MFCC wav2vec c wav2vec z
cosine
PLDA
LDA PLDA

x-vector

Equel Error Rate MFCC wav2vec c wav2vec z
cosine
PLDA
LDA PLDA

Sitw-eval

i-vector

Equel Error Rate MFCC wav2vec c wav2vec z
cosine
PLDA
LDA PLDA

x-vector

Equel Error Rate MFCC wav2vec c wav2vec z
cosine
PLDA
LDA PLDA

CN-Celeb

i-vector

Equel Error Rate MFCC wav2vec c wav2vec z
cosine
PLDA
LDA PLDA

x-vector

Equel Error Rate MFCC wav2vec c wav2vec z
cosine
PLDA
LDA PLDA