python - 使用 Python 处理音频信号

Question

我一直在做关于音频信号处理的作业。我读过一些论文，对一个公式感到困惑：在此处输入图像描述 . 该公式用于处理 44100Hz、16 位、单声道音频。音频已经过预处理并被分割成 1024 宽的帧。F(w)是每帧的 FFT 系数，是w with - above帧速率的一半，22050。

我搜索了很多，最重要的是使用 Fast Fourier Transform 分析音频。但我仍然无法清楚地理解它。我得到了 FFT 系数，带有 scipy 和 numpy，一个 1024 宽度的数组。那么我该如何执行公式呢？它是否等于数组的 0 到 512 个值的总和？

希望有人可以帮助我。提前致谢。

score 0 · Accepted Answer

假设您有一个信号x = [ x_1, x_2, ..., x_N ]，那么您将在 python 中计算上面的公式（导入 scipy）：

E = sum( abs(fft(x))[:len(x)/2]**2 ) / len(x)

关于归一化因子N = len(x)，我不能 100% 确定——这取决于 fft 的确切实现。

1 回答 1