实验分为两个阶段,
- 搭建 基于MFCC 的 baseline;
- 之后是引入 wav2vec 获取语音的 CPC feature 进行实验。
DataSet
使用 LibSpeech 训练说话人识别模型和做语音预训练,使用 sitw 和 CN-Celeb 测试 ASV 系统性能
- LibSpeech (Pretain & Dev)
- sitw (Test)
- CN-Celeb (Test)
Toolkit
- Kaldi
- fariseq-wav2vec
Sitw-dev
i-vector
| Equel Error Rate | MFCC | wav2vec c | wav2vec z |
|---|---|---|---|
| cosine | |||
| PLDA | |||
| LDA PLDA |
x-vector
| Equel Error Rate | MFCC | wav2vec c | wav2vec z |
|---|---|---|---|
| cosine | |||
| PLDA | |||
| LDA PLDA |
Sitw-eval
i-vector
| Equel Error Rate | MFCC | wav2vec c | wav2vec z |
|---|---|---|---|
| cosine | |||
| PLDA | |||
| LDA PLDA |
x-vector
| Equel Error Rate | MFCC | wav2vec c | wav2vec z |
|---|---|---|---|
| cosine | |||
| PLDA | |||
| LDA PLDA |
CN-Celeb
i-vector
| Equel Error Rate | MFCC | wav2vec c | wav2vec z |
|---|---|---|---|
| cosine | |||
| PLDA | |||
| LDA PLDA |
x-vector
| Equel Error Rate | MFCC | wav2vec c | wav2vec z |
|---|---|---|---|
| cosine | |||
| PLDA | |||
| LDA PLDA |