0

我已经在相位声码器上苦苦挣扎了几个星期。最终目标是实现信号的时间拉伸。我已经取得了很大的进步,但我仍然有两个问题需要解决。

问题1:我需要一个综合窗口吗?
我从输入信号(正弦波)中获取具有任何跳跃大小(例如 N/2,N = 每帧样本)的重叠帧。我将汉宁窗应用于框架并将结果提供给 FFT。为了实现时间拉伸,我执行 iFFT 并使用与分析期间使用的跳数不同的跳数重叠添加输出帧。
问题是输出跳跃因子= 0.5(跳跃大小= N / 2)输出是平滑的,但是对于更大的跳跃大小,我可以听到“振动”。该图像显示了 8 帧的输出,其中跳跃因子 = 1(零重叠)。很明显为什么声音在振动。对于小跳数,帧重叠更多,声音更平滑。我读过很多关于相位声码的文章,但我似乎不知道如何获得大跳数的平滑输出。我错过了什么?

在此处输入图像描述

问题 2:相位校正。
目前,相位校正后的输出听起来更糟,但我将把它留到另一篇文章中。

提前感谢您抽出宝贵时间。

4

1 回答 1

1

我是这方面的业余爱好者,但是如果您从更大的重叠开始,例如 N/10 的“跳跃大小”或类似的东西,您会不会得到更好的结果?然后你就有更多的自由来调整它的输出,同时仍然保持大量的重叠。

此外,根据您扩展/压缩时间的多少来调整窗口的陡峭度可能会有所帮助。

于 2014-03-08T00:12:29.057 回答