我需要加快计算大致如下形式的线性变换:
import numpy as np
N=10000
input=np.random.random(N)
x=np.linspace(0,100,N)
y=np.linspace(0,30,N)
X,Y=np.meshgrid(x,y,sparse=True)
output=np.dot(np.cos(X*Y),input)
也就是说,我在规则网格上评估余弦并将我的输入乘以结果矩阵。实际上,核函数(这里是余弦)更复杂,特别是它不是周期性的。因此,FFT 类型的简化是不可能的!
在我的多核机器上,上述转换大约需要 5 秒。现在,我绝对需要加快速度。一个简单的第一次尝试是使用 numexpr:
import numpy as np
import numexpr as ne
N=10000
input=np.random.random(N)
x=np.linspace(0,100,N)
y=np.linspace(0,30,N)
X,Y=np.meshgrid(x,y,sparse=True)
output=np.dot(ne.evaluate('cos(X*Y)'),input)
这利用了并行计算并将执行时间减少到大约 0.9 秒。这很好,但不足以达到我的目的。所以,我的下一个尝试是使用并行 Cython:
import numpy as np
from cython.parallel import prange
cimport numpy as np
cimport cython
from libc.math cimport cos
DTYPE = np.float64
ctypedef np.float64_t DTYPE_t
@cython.boundscheck(False)
@cython.wraparound(False)
@cython.nonecheck(False)
def transform(double[:] x, double[:] y, double[:] input):
cdef unsigned int N = x.shape[0]
cdef double[:] output = np.zeros(N)
cdef unsigned int row, col
for row in prange(N, nogil= True):
for col in range(N):
output[row] += cos(x[row]*y[col])*input[col]
return output
我通过执行编译它
from distutils.core import setup
from distutils.extension import Extension
from Cython.Distutils import build_ext
ext_modules=[
Extension("cythontransform",
["cythontransform.pyx"],
libraries=["m"],
extra_compile_args = ["-O3", "-ffast-math", "-march=native", "-fopenmp" ],
extra_link_args=['-fopenmp']
)
]
setup(
name = "cythontransform",
cmdclass = {"build_ext": build_ext},
ext_modules = ext_modules
)
从命令行。通过调用转换
import numpy as np
from cythontransform import transform
N=10000
input=np.random.random(N)
x=np.linspace(0,100,N)
y=np.linspace(0,30,N)
output=transform(x,y,input)
产生相当微弱的改进,大约 0.7 秒。
有人知道进一步改进 Cython 代码的可能性吗?
或者,是否有其他更适合这个问题的框架(PyOpenCL、Pythran、Numba、...)?