实验分为两个阶段,
- 搭建 基于MFCC 的 baseline;
- 之后是引入 wav2vec 获取语音的 CPC feature 进行实验。
DataSet
使用 LibSpeech 训练说话人识别模型和做语音预训练,使用 sitw 和 CN-Celeb 测试 ASV 系统性能
- LibSpeech (Pretain & Dev)
- sitw (Test)
- CN-Celeb (Test)
Toolkit
- Kaldi
- fariseq-wav2vec
Sitw-dev
i-vector
Equel Error Rate | MFCC | wav2vec c | wav2vec z |
---|---|---|---|
cosine | |||
PLDA | |||
LDA PLDA |
x-vector
Equel Error Rate | MFCC | wav2vec c | wav2vec z |
---|---|---|---|
cosine | |||
PLDA | |||
LDA PLDA |
Sitw-eval
i-vector
Equel Error Rate | MFCC | wav2vec c | wav2vec z |
---|---|---|---|
cosine | |||
PLDA | |||
LDA PLDA |
x-vector
Equel Error Rate | MFCC | wav2vec c | wav2vec z |
---|---|---|---|
cosine | |||
PLDA | |||
LDA PLDA |
CN-Celeb
i-vector
Equel Error Rate | MFCC | wav2vec c | wav2vec z |
---|---|---|---|
cosine | |||
PLDA | |||
LDA PLDA |
x-vector
Equel Error Rate | MFCC | wav2vec c | wav2vec z |
---|---|---|---|
cosine | |||
PLDA | |||
LDA PLDA |