我正在尝试开发一个应用程序,通过从已经被用户自己标记为最喜欢的音乐中训练神经网络来将音乐分类为可能喜欢或可能不喜欢的音乐。我以前从未做过音频分析,所以我对此几乎一无所知。为了使它成为一个准确的分类模型,我需要在我的音乐数据集中包含哪些特征。例如:- 分贝值、频率值、音频长度
谢谢你
我正在尝试开发一个应用程序,通过从已经被用户自己标记为最喜欢的音乐中训练神经网络来将音乐分类为可能喜欢或可能不喜欢的音乐。我以前从未做过音频分析,所以我对此几乎一无所知。为了使它成为一个准确的分类模型,我需要在我的音乐数据集中包含哪些特征。例如:- 分贝值、频率值、音频长度
谢谢你
首先使用 Essentia 的音乐特征提取器。例如,您可以使用他们的命令行工具。这为您提供了大量的低级音频功能(30 多种类型),以及节奏(6 多种功能类型)和音调(6 多种功能)。您也可以对 Python 绑定执行相同的操作。
频谱图是一种有用的技术,用于可视化声音的频谱以及它们在很短的时间内如何变化。您可以使用称为梅尔频率倒谱系数 (MFCC) 的类似技术作为数据集的特征。
您可以使用Librosa 的 mfcc()函数,该函数从时间序列音频数据生成 MFCC 以使任务更容易