我正在实施Nicolas Juillerat 和 Beat Hirsbrunner 的 2010 年论文“频域中的低延迟音频音高偏移”中描述的音高偏移方法。到目前为止,我已经实现了大部分算法(如果你很好奇,这里是代码,但对于这个问题应该没关系)。
我被困在第 3.5 节的最后一步:处理调制效果。将 von Hann 窗口应用于分析和综合阶段很简单,但似乎这篇论文缺少一些关于如何计算我应该除以的曲线的细节:
其次,计算当前缩放比例、重叠因子、分析窗口和综合窗口的改变分析窗口的周期;并计算得到的调幅曲线。在逆 DFT 和重叠相加过程之后,得到的时域样本除以计算的幅度调制曲线,以“解调”结果。
该论文提供了一些示例图像,但我无法弄清楚应该如何计算这些曲线。(这个操作应该适合我上面链接的要点的第 119 行左右。)该算法目前在低延迟下听起来比标准相位声码器方法更差,所以看起来这个解调步骤对算法的质量至关重要。
我不知道这个幅度调制来自哪里的数学,所以我不确定我什至从哪里开始弄清楚如何计算曲线。我可以通过算法输入一些正弦波,看看会发生什么,但这些信息基本上已经由图像提供,并不能帮助我找出实际的公式。
那么,有谁知道我如何计算该算法的幅度调制曲线?