我一直在使用这个脚本:
spgram = torchaudio.transforms.Spectrogram(512, hop_length=32)
audio = spgram(audio)
获得一些立体声音乐音频的频谱图。我预计生成的频谱图的形状为 [2, 257, audio.shape[1]/32] 但是,事实并非如此。例如,大小为 [2, 199488](sr=24576)的音频剪辑会产生大小为 [2, 257, 6241] 的频谱图(请注意,199488/32=6234)。这是为什么?以及如何从帧位置转换为样本位置?