Python 中最快的 FFT 实现是什么?
似乎 numpy.fft 和 scipy.fftpack 都基于 fftpack,而不是 FFTW。fftpack 和 FFTW 一样快吗?使用多线程 FFT 或使用分布式 (MPI) FFT 怎么样?
您当然可以使用 Cython 或其他允许您访问外部库的类似工具来包装您想要测试的任何 FFT 实现。
如果您要测试 FFT 实现,您还可以查看基于 GPU 的代码(如果您可以访问适当的硬件)。有几个:reikna.fft,scikits.cuda。
还有一个基于 CPU 的 python FFTW 包装器pyFFTW。
(也有pyFFTW3,但它不像 pyFFTW 那样积极维护,而且它不适用于 Python3。(来源))
我对这些都没有经验。如果速度对您很重要,那么您可能会为您的特定应用程序进行一些挖掘和基准测试。
对于https://gist.github.com/fnielsen/99b981b9da34ae3d5035上详细介绍的测试,我发现 scipy.fftpack 与我对 pyfftw via 的简单应用相比表现良好pyfftw.interfaces.scipy_fftpack
,除了长度对应于质数的数据。
第一次调用 pyfftw.interfaces.scipy_fftpack.fft 似乎有一些设置成本。第二次更快。Numpy 和 scipy 的带有质数的 fftpack 对于我尝试过的数据大小来说表现非常糟糕。在这种情况下,CZT 更快。几个月前在 Scipy 的 Github 上提出了一个关于该问题的问题,请参阅https://github.com/scipy/scipy/issues/4288
20000 prime=False
padded_fft : 0.003116
numpy_fft : 0.003502
scipy_fft : 0.001538
czt : 0.035041
fftw_fft : 0.004007
------------------------------------------------------------
20011 prime=True
padded_fft : 0.001070
numpy_fft : 1.263672
scipy_fft : 0.875641
czt : 0.033139
fftw_fft : 0.009980
------------------------------------------------------------
21803 prime=True
padded_fft : 0.001076
numpy_fft : 1.510341
scipy_fft : 1.043572
czt : 0.035129
fftw_fft : 0.011463
------------------------------------------------------------
21804 prime=False
padded_fft : 0.001108
numpy_fft : 0.004672
scipy_fft : 0.001620
czt : 0.033854
fftw_fft : 0.005075
------------------------------------------------------------
21997 prime=True
padded_fft : 0.000940
numpy_fft : 1.534876
scipy_fft : 1.058001
czt : 0.034321
fftw_fft : 0.012839
------------------------------------------------------------
32768 prime=False
padded_fft : 0.001222
numpy_fft : 0.002410
scipy_fft : 0.000925
czt : 0.039275
fftw_fft : 0.005714
------------------------------------------------------------
与 pyFFTW 库相比,pyFFTW3 包较差,至少在实现方面是这样。由于它们都包装了 FFTW3 库,我猜速度应该是一样的。
在我工作的地方,一些研究人员编译了这个 Fortran 库,它针对特定问题设置和调用 FFTW。这个 Fortran 库(带有一些子程序的模块)需要来自我的 Python 程序的一些输入数据(二维列表)。
我所做的是为包装 Fortran 库的 Python 创建一个小 C 扩展,我基本上调用“init”来设置 FFTW 规划器,以及另一个用于提供我的 2D 列表(数组)的函数和一个“计算”函数。
创建 C 扩展是一项小任务,并且针对该特定任务有很多很好的教程。
这种方法的好处是我们得到了速度......很多速度。唯一的缺点是在 C 扩展中,我们必须遍历 Python 列表,并将所有 Python 数据提取到内存缓冲区中。
FFTW站点显示 fftpack 的运行速度大约是 FFTW 的 1/3,但这是通过机械翻译的 Fortran 到 C 步骤,然后是 C 编译,我不知道 numpy/scipy 是否使用更直接的 Fortran 编译。如果性能对您很重要,您可以考虑将 FFTW 编译成 DLL/共享库并使用 ctypes 访问它,或者构建自定义 C 扩展。
FFTW3 似乎是包装精美的最快实现。第一个答案中的 PyFFTW 绑定有效。下面是一些比较执行时间的代码:test_ffts.py