3

我一直在使用这个脚本:

spgram = torchaudio.transforms.Spectrogram(512, hop_length=32)
audio = spgram(audio)

获得一些立体声音乐音频的频谱图。我预计生成的频谱图的形状为 [2, 257, audio.shape[1]/32] 但是,事实并非如此。例如,大小为 [2, 199488](sr=24576)的音频剪辑会产生大小为 [2, 257, 6241] 的频谱图(请注意,199488/32=6234)。这是为什么?以及如何从帧位置转换为样本位置?

4

1 回答 1

0

center参数。

是否waveform在两侧进行填充,以使t第 - 帧以时间 tx hop_length 为中心。(默认: True)

因此,默认情况下,信号用零填充。填充长度可能是 ( win_length - hop_length)。这最终使结果更长(win_length - hop_length) / hop_length,在您的情况下为 7。

于 2021-10-04T20:30:12.490 回答