我在双精度模式下在 GTX 780 和 Tesla K40 上比较了一个简单的 3D cuFFT 程序。
在 GTX 780 上我测量了大约 85 Gflops,而在 K40 上我测量了大约 160 Gflops。这些结果让我感到困惑:GTX 780 ha 166 Gflops 的峰值理论性能,而 K40 有 1.4 Tflops。
K40 上 cuFFT 的有效性能与理论峰值性能如此遥远的事实也来自 Nvidia 在此链接上创建的图表。
有人可以向我解释为什么会这样吗?cuFFT 库有限制吗?也许一些缓存动机......