audio - 我如何知道哪些频谱图帧属于哪些音频样本？

Question

我一直在使用这个脚本：

spgram = torchaudio.transforms.Spectrogram(512, hop_length=32)
audio = spgram(audio)

获得一些立体声音乐音频的频谱图。我预计生成的频谱图的形状为 [2, 257, audio.shape[1]/32] 但是，事实并非如此。例如，大小为 [2, 199488]（sr=24576）的音频剪辑会产生大小为 [2, 257, 6241] 的频谱图（请注意，199488/32=6234）。这是为什么？以及如何从帧位置转换为样本位置？

score 0 · Accepted Answer

见center参数。

是否waveform在两侧进行填充，以使t第 - 帧以时间 tx hop_length 为中心。(默认: True)

因此，默认情况下，信号用零填充。填充长度可能是 ( win_length - hop_length)。这最终使结果更长(win_length - hop_length) / hop_length，在您的情况下为 7。

audio - 我如何知道哪些频谱图帧属于哪些音频样本？

1 回答 1

Related

Reference