4

所以我正在学习机器学习,想知道 mfcc 特征大小对 RNN(递归神经网络)有何影响?

使用 librosa,我提取了 mfcc,然后提取了 delta 系数,之后我得到了维度数组 [13, sound_length]

用python提取mfcc和delta系数的代码:(y - 声音文件数据,sr - y的长度)

mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
mfcc_delta = librosa.feature.delta(mfcc, axis=0, order=1)

所以理论上,如果我想用这种数据和 n_mfcc=39 的数据来训练网络。谁会更好,为什么?(忽略所有其他超参数)我只想知道这个参数如何影响 RNN 的理论。

4

1 回答 1

6

MFCCMel标度(非线性)频谱的DCT系数。换句话说,它们捕捉梅尔光谱中周期性变化的幅度。在音乐分析中,这通常用于描述一段音乐的音色。系数的指数越低,(梅尔谱中的周期性变化的)频率越低。

简而言之:较低的指数/系数通常更重要。

JPEG 图像文件格式和 MP3 的情况也是如此——更高的 DCT 系数被丢弃,因为它们描述了通常被认为不重要的更高频率。

所以更少的系数意味着你可以使用更小的 RNN。但是,您将丢失那些较高频率中包含的信息(如上所述,这些信息通常被认为不是很重要)。这是一个收益递减的游戏:在某些时候更多的系数只是意味着更多的输入,但不一定是更好的结果。

AFAIK,在音乐信息检索 ( MIR ) 中,通常使用前 13 个系数。但我也看到过使用前 20 个的论文。

在用于 MIR 之前,MFCC 用于语音识别。

B. 洛根。“用于音乐建模的梅尔频率倒谱系数。” 在国际音乐信息检索研讨会 (ISMIR 2000),2000 年。

或者McFee、Brian 和 Gert RG Lanckriet。“主观艺术家相似性的异构嵌入”。ISMIR 2009 年,2009 年。

于 2017-01-26T16:21:42.473 回答