python - 查找在 wav 文件中播放的音符的时间戳

Question

假设我们有一个录制了一些吉他音乐的 wav 文件。声音非常干净，没有多余的声音，只有吉他本身和节拍器的滴答声。

找到在 Python 中演奏的每个音符（或和弦）的时间戳的最佳方法是什么？我不需要识别笔记本身，只需要识别它发生时的时间戳。

我以前从来没有做过这种事情，所以我有点困惑。我在 Wikipedia 上阅读了有关短时傅立叶变换的信息，它看起来很有希望，但我找不到任何相关的例子。非常感谢有关如何开始的任何帮助/提示。

score 2 · Accepted Answer

一般问题称为发病检测，您可以尝试多种方法。我将提供一个超级幼稚的解决方案，可能不适用于您的用例：

from scipy.io import wavfile
from scipy.signal import argrelmax
from matplotlib.mlab import specgram

sr, x = wavfile.read(path)                                    # read in a mono wav file
spec, freqs, time = specgram(x, NFFT=4096, Fs=sr, mode='psd') # compute power spectral density spectogram
spec2 = np.diff(spec, axis=1)                                 # discrete difference in each frequency bin
spec2[spec2<0] = 0                                            # half-wave rectification
diff = np.sum(spec2, axis=0)                                  # sum positive difference in each time bin

for peak in argrelmax(diff)[0]:                               # find peaks
    print("onset between %f and %f." % (time[peak], time[peak+1]))

python - 查找在 wav 文件中播放的音符的时间戳

1 回答 1

Related

Reference