python - 提高 Python 中的 FFT 性能

Question

Python 中最快的 FFT 实现是什么？

似乎 numpy.fft 和 scipy.fftpack 都基于 fftpack，而不是 FFTW。fftpack 和 FFTW 一样快吗？使用多线程 FFT 或使用分布式 (MPI) FFT 怎么样？

score 23 · Accepted Answer

您当然可以使用 Cython 或其他允许您访问外部库的类似工具来包装您想要测试的任何 FFT 实现。

基于 GPU

如果您要测试 FFT 实现，您还可以查看基于 GPU 的代码（如果您可以访问适当的硬件）。有几个：reikna.fft，scikits.cuda。

基于 CPU

还有一个基于 CPU 的 python FFTW 包装器pyFFTW。

（也有pyFFTW3，但它不像 pyFFTW 那样积极维护，而且它不适用于 Python3。（来源））

我对这些都没有经验。如果速度对您很重要，那么您可能会为您的特定应用程序进行一些挖掘和基准测试。

score 12 · Accepted Answer

对于https://gist.github.com/fnielsen/99b981b9da34ae3d5035上详细介绍的测试，我发现 scipy.fftpack 与我对 pyfftw via 的简单应用相比表现良好pyfftw.interfaces.scipy_fftpack，除了长度对应于质数的数据。

第一次调用 pyfftw.interfaces.scipy_fftpack.fft 似乎有一些设置成本。第二次更快。Numpy 和 scipy 的带有质数的 fftpack 对于我尝试过的数据大小来说表现非常糟糕。在这种情况下，CZT 更快。几个月前在 Scipy 的 Github 上提出了一个关于该问题的问题，请参阅https://github.com/scipy/scipy/issues/4288

20000 prime=False
  padded_fft : 0.003116
   numpy_fft : 0.003502
   scipy_fft : 0.001538
         czt : 0.035041
    fftw_fft : 0.004007
------------------------------------------------------------
20011 prime=True
  padded_fft : 0.001070
   numpy_fft : 1.263672
   scipy_fft : 0.875641
         czt : 0.033139
    fftw_fft : 0.009980
------------------------------------------------------------
21803 prime=True
  padded_fft : 0.001076
   numpy_fft : 1.510341
   scipy_fft : 1.043572
         czt : 0.035129
    fftw_fft : 0.011463
------------------------------------------------------------
21804 prime=False
  padded_fft : 0.001108
   numpy_fft : 0.004672
   scipy_fft : 0.001620
         czt : 0.033854
    fftw_fft : 0.005075
------------------------------------------------------------
21997 prime=True
  padded_fft : 0.000940
   numpy_fft : 1.534876
   scipy_fft : 1.058001
         czt : 0.034321
    fftw_fft : 0.012839
------------------------------------------------------------
32768 prime=False
  padded_fft : 0.001222
   numpy_fft : 0.002410
   scipy_fft : 0.000925
         czt : 0.039275
    fftw_fft : 0.005714
------------------------------------------------------------

score 3 · Accepted Answer

与 pyFFTW 库相比，pyFFTW3 包较差，至少在实现方面是这样。由于它们都包装了 FFTW3 库，我猜速度应该是一样的。

https://pypi.python.org/pypi/pyFFTW

score 2 · Accepted Answer

在我工作的地方，一些研究人员编译了这个 Fortran 库，它针对特定问题设置和调用 FFTW。这个 Fortran 库（带有一些子程序的模块）需要来自我的 Python 程序的一些输入数据（二维列表）。

我所做的是为包装 Fortran 库的 Python 创建一个小 C 扩展，我基本上调用“init”来设置 FFTW 规划器，以及另一个用于提供我的 2D 列表（数组）的函数和一个“计算”函数。

创建 C 扩展是一项小任务，并且针对该特定任务有很多很好的教程。

这种方法的好处是我们得到了速度......很多速度。唯一的缺点是在 C 扩展中，我们必须遍历 Python 列表，并将所有 Python 数据提取到内存缓冲区中。

score 1 · Accepted Answer

FFTW站点显示 fftpack 的运行速度大约是 FFTW 的 1/3，但这是通过机械翻译的 Fortran 到 C 步骤，然后是 C 编译，我不知道 numpy/scipy 是否使用更直接的 Fortran 编译。如果性能对您很重要，您可以考虑将 FFTW 编译成 DLL/共享库并使用 ctypes 访问它，或者构建自定义 C 扩展。

score 1 · Accepted Answer

FFTW3 似乎是包装精美的最快实现。第一个答案中的 PyFFTW 绑定有效。下面是一些比较执行时间的代码：test_ffts.py

python - 提高 Python 中的 FFT 性能

6 回答 6

基于 GPU

基于 CPU

Related

Reference