0

我一直在做关于音频信号处理的作业。我读过一些论文,对一个公式感到困惑:在此处输入图像描述. 该公式用于处理 44100Hz、16 位、单声道音频。音频已经过预处理并被分割成 1024 宽的帧。F(w)是每帧的 FFT 系数,是w with - above帧速率的一半,22050。

我搜索了很多,最重要的是使用 Fast Fourier Transform 分析音频。但我仍然无法清楚地理解它。我得到了 FFT 系数,带有 scipy 和 numpy,一个 1024 宽度的数组。那么我该如何执行公式呢?它是否等于数组的 0 到 512 个值的总和?

希望有人可以帮助我。提前致谢。

4

1 回答 1

0

假设您有一个信号x = [ x_1, x_2, ..., x_N ],那么您将在 python 中计算上面的公式(导入 scipy):

E = sum( abs(fft(x))[:len(x)/2]**2 ) / len(x)

关于归一化因子N = len(x),我不能 100% 确定——这取决于 fft 的确切实现。

于 2013-06-11T19:07:11.023 回答