matlab - 在使用 MFCC 的 ASR 系统中提取了哪些特征或使用哪些参数来区分用户？

Question

MFCC 在测试阶段从扬声器中提取了哪些特征？

我知道如何计算 mfcc 步骤的方法是：

我将信号分成 10 到 30 毫秒的小帧
应用窗口功能（建议在声音应用中使用嗡嗡声 [原文如此]）
计算信号的傅里叶变换，
使用 DFT，计算梅尔频率倒谱系数：
- 获取功率谱：|DFT|^2
- 计算三角组滤波器以将 hz 标度转换为 mel 标度
- 获取对数谱
- 应用离散余弦变换

通过这样做，我得到了系数。但我想知道这些系数与用户语音的关系。这些系数代表什么？

score 1 · Accepted Answer

MFCC 为您提供音频源中按频率排列的时间序列。“原始”基于 DFT 的幂级数的调整有两个基本目的：

1）从原始 DFT 获得的线性比例（频率和功率）变为对数比例。这与人类（和大多数动物）听觉系统感知声音的方式一致。

2）将大量数据压缩成更小的特征集，这仍然足以区分声音之间的重要感知差异。这种压缩在高频下特别有用 - 对于大多数语音/ASR 应用程序，检测 1001 Hz 和 999 Hz 的功率电平之间的差异几乎没有价值。

这些系数代表什么？

音频源的频率内容，与原始 DFT 相同，但经过调整以匹配人类感知的已知属性。在分析我们的声音和听力共同进化的口语交流时，这些调整具有理论上的意义。

1 回答 1