Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试使用 python 库分析歌曲音频,输出是一个 numpy 数组,该数组的大小非常大,因为 MFCC 是针对音频的每一帧计算的。当我将此输出写入文件时,每首歌曲的输出约为 3-4MB。有没有办法将 N 帧信息减少为单行特征?
)
一种常见的做法是将连续帧分组到序列窗口中,计算每个纹理窗口的聚合统计信息,然后使用聚合统计信息再次对其进行总结。
统计信息是按输入功能计算的(在您的情况下为 MFCC 频带)。示例统计函数将是均值、标准差、最小值、最大值。纹理大小可以在 1-60 秒之间。
请参阅低级功能和音色,Juan Pablo Bello,MPATE-GE 2623 音乐信息检索