2

我有一个概念问题。

我知道什么是 mel 标度以及它代表什么,并且我知道这种频谱图对于我需要的信息仍然太多。

我认为如果我们想减少频谱图的信息数量,我们使用 MFCC。

但我真的不明白 MFCC 是什么以及它代表什么?我在语音识别过程中使用了 MFCC 矩阵,但我不明白该向量中的所有数字代表什么。

数组是 13x130,我不知道所有这些浮点数是什么意思。我知道我的音轨越长,我的矩阵越大(例如 13x250、13x400)。

我希望我把自己说清楚。

4

0 回答 0