0

我正在尝试使用 python 库分析歌曲音频,输出是一个 numpy 数组,该数组的大小非常大,因为 MFCC 是针对音频的每一帧计算的。当我将此输出写入文件时,每首歌曲的输出约为 3-4MB。有没有办法将 N 帧信息减少为单行特征?

点击这里]([![MFCC 输出)

4

1 回答 1

0

一种常见的做法是将连续帧分组到序列窗口中,计算每个纹理窗口的聚合统计信息,然后使用聚合统计信息再次对其进行总结。

统计信息是按输入功能计算的(在您的情况下为 MFCC 频带)。示例统计函数将是均值、标准差、最小值、最大值。纹理大小可以在 1-60 秒之间。

请参阅低级功能和音色,Juan Pablo Bello,MPATE-GE 2623 音乐信息检索

于 2018-12-02T02:55:04.840 回答