4

根据英伟达。cublasZgemm 比英特尔 MKL 快 6 倍。

但是,在我的 PC(i7 2600、Nvidia gtx560、OS:linux 64bit)上,cublasZgemm 比 MKL 稍慢。

我使用 numpy.dot() 附带的 enthought python 发行版,它将 numpy 与 MKL 10.3 链接起来。

使用 cublasZgemm 的矩阵乘法函数在共享库中编译,并在 python 脚本中使用 ctypes 调用。

当两个 1024x1024 复矩阵相乘时。numpy.dot() 花了 84 毫秒。ctypes 函数调用花费了 110 毫秒,而 cublasZgemm() 部分花费了 97 毫秒。

我想知道为什么 cublassZgemm 没有 nvidia 所说的那么快?

4

1 回答 1

4

我想知道为什么 cublassZgemm 没有 nvidia 所说的那么快?

简短的回答是因为您使用的 GPU 执行 zgemm 基准测试的速度比 NVIDIA 用来生成其性能数据的速度慢得多。您的 GTX560在双精度性能方面可能比 NVIDIA 在您的链接中使用的 Telsa M2090 慢八倍

于 2012-03-05T16:47:16.613 回答