我有大约 100 个 wav 音频文件,采样率为 48000 个相同物种的鸟类,我想测量它们之间的相似性。我从波形文件开始,但我(非常了解)更多关于使用图像的知识,所以我假设我的分析将在频谱图图像上进行。我有几个不同日子的鸟类样本。
以下是一些数据示例,以及(对于未标记的轴表示歉意;x 是样本,y 是线性频率乘以 10,000 Hz):
这些鸟鸣显然出现在“单词”中,歌曲的不同片段可能是我应该比较一下;相似词之间的差异以及各种词的频率和顺序。
我想尝试去除蝉噪声 - 蝉的啁啾频率相当一致,并且倾向于相位匹配,所以这应该不会太难。
似乎一些阈值可能有用。
有人告诉我,大多数现有文献都使用基于歌曲特征的手动分类,例如 Pandora Music Genome Project。我想像Echo Nest一样;使用自动分类。更新:很多人都在研究这个。
我的问题是我应该使用哪些工具进行此分析?我需要:
- 过滤/限制一般噪音并保留音乐
- 过滤掉像蝉这样的特定噪音
- 拆分和分类鸟鸣中的短语、音节和/或音符
- 创建零件之间差异/相似性的度量;可以识别鸟类之间差异的东西,最大限度地减少同一只鸟的不同叫声之间的差异
我选择的武器是 numpy/scipy,但是像 openCV 这样的东西在这里可能有用吗?
编辑:经过一些研究和史蒂夫的有用回答,更新了我的术语和重新措辞的方法。