2

给定一个 的音频文件22 mins (1320 secs),Librosa 通过以下方式提取 MFCC 特征 data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)

data.shape (20,56829) 它返回 56829 帧的 20 个 MFCC 特征的 numpy 数组。

我的问题是它是如何计算56829的。有没有什么计算可以实现这个框架?每帧的窗口大小是多少?

4

1 回答 1

4

您可以指定跃点长度

mfcc = librosa.feature.mfcc(y=y, sr=sr, hop_length=hop_length, n_mfcc=13)

librosa 使用居中的帧,因此第 k 帧以样本 k * hop_length 为中心

我认为默认跃点值为 512,您的数据 (1320*22050)/56829 = 512,16

于 2016-11-02T15:51:26.103 回答