python - cublas cublasZgemm() 比预期慢

Question

根据英伟达。cublasZgemm 比英特尔 MKL 快 6 倍。

但是，在我的 PC（i7 2600、Nvidia gtx560、OS:linux 64bit）上，cublasZgemm 比 MKL 稍慢。

我使用 numpy.dot() 附带的 enthought python 发行版，它将 numpy 与 MKL 10.3 链接起来。

使用 cublasZgemm 的矩阵乘法函数在共享库中编译，并在 python 脚本中使用 ctypes 调用。

当两个 1024x1024 复矩阵相乘时。numpy.dot() 花了 84 毫秒。ctypes 函数调用花费了 110 毫秒，而 cublasZgemm() 部分花费了 97 毫秒。

我想知道为什么 cublassZgemm 没有 nvidia 所说的那么快？

score 4 · Accepted Answer

我想知道为什么 cublassZgemm 没有 nvidia 所说的那么快？

简短的回答是因为您使用的 GPU 执行 zgemm 基准测试的速度比 NVIDIA 用来生成其性能数据的速度慢得多。您的 GTX560在双精度性能方面可能比 NVIDIA 在您的链接中使用的 Telsa M2090 慢八倍。

1 回答 1