我从 mp3 的 10 秒剪辑中获取了幅度数据。然后我对其进行了快速傅立叶变换,以获取频域中剪辑的数据(如第一张图所示)。我现在想确定峰值所在的频率。
我首先对数据进行了平滑处理,可以在下面的蓝色和红色图中看到。我创建了一个阈值,峰值必须超过才能被考虑。这是下面第三个图中的水平蓝线。可以看出,我的峰值检测代码在一定程度上有效。
我现在遇到的问题在下面显示的最终图中很明显。我的代码正在寻找作为整体峰值一部分的局部最大值的最大值。我需要一种方法来过滤掉这些局部最大值,以便对于每个峰值,我只能得到一个标记。即对于下面显示的峰值,我只想要绝对峰值处的标记,而不是沿途的每个次要峰值。
我的峰值检测代码如下所示:
for i, item in enumerate(xavg): #xavg contains all the smoothed data points
if xavg[i] > threshold: #points must be above the threshold
#if not the first or last point (so index isn't out of range)
if (i > 0) and (i < (len(xavg)-1)):
#greater than points on either side
if (xavg[i] > xavg[i-1]) and (xavg[i] > xavg[i+1]):
max_locations.append(i)
编辑:我认为我没有足够清楚地说明我的问题。我想找到地块上 5 个左右最高尖峰的位置,而不仅仅是总体最高点。我基本上试图通过标记其主要频率来为剪辑提供音频指纹。
EDIT2:更多代码可帮助显示我在 FFT 和平滑方面所做的工作:
def movingaverage(interval, window_size):
window = np.ones(int(window_size))/float(window_size)
return np.convolve(interval, window, 'same')
fft = np.fft.rfft(song)
xavg = movingaverage(abs(fft), 21)