0

MFCC 在测试阶段从扬声器中提取了哪些特征?

我知道如何计算 mfcc 步骤的方法是:

  • 我将信号分成 10 到 30 毫秒的小帧

  • 应用窗口功能(建议在声音应用中使用嗡嗡声 [原文如此])

  • 计算信号的傅里叶变换,

  • 使用 DFT,计算梅尔频率倒谱系数:

    • 获取功率谱:|DFT|^2

    • 计算三角组滤波器以将 hz 标度转换为 mel 标度

    • 获取对数谱

    • 应用离散余弦变换

通过这样做,我得到了系数。但我想知道这些系数与用户语音的关系。这些系数代表什么?

4

1 回答 1

1

MFCC 为您提供音频源中按频率排列的时间序列。“原始”基于 DFT 的幂级数的调整有两个基本目的:

1)从原始 DFT 获得的线性比例(频率和功率)变为对数比例。这与人类(和大多数动物)听觉系统感知声音的方式一致。

2)将大量数据压缩成更小的特征集,这仍然足以区分声音之间的重要感知差异。这种压缩在高频下特别有用 - 对于大多数语音/ASR 应用程序,检测 1001 Hz 和 999 Hz 的功率电平之间的差异几乎没有价值。

这些系数代表什么?

音频源的频率内容,与原始 DFT 相同,但经过调整以匹配人类感知的已知属性。在分析我们的声音和听力共同进化的口语交流时,这些调整具有理论上的意义。

于 2015-03-10T11:27:08.890 回答