根据英伟达。cublasZgemm 比英特尔 MKL 快 6 倍。
但是,在我的 PC(i7 2600、Nvidia gtx560、OS:linux 64bit)上,cublasZgemm 比 MKL 稍慢。
我使用 numpy.dot() 附带的 enthought python 发行版,它将 numpy 与 MKL 10.3 链接起来。
使用 cublasZgemm 的矩阵乘法函数在共享库中编译,并在 python 脚本中使用 ctypes 调用。
当两个 1024x1024 复矩阵相乘时。numpy.dot() 花了 84 毫秒。ctypes 函数调用花费了 110 毫秒,而 cublasZgemm() 部分花费了 97 毫秒。
我想知道为什么 cublassZgemm 没有 nvidia 所说的那么快?