c - CUDA 程序在 Tesla K20 上运行比 GTX 965 慢

Question

我正在做一个项目，我必须比较各种 gpu 卡以进行性能分析。

我在两个 GPU 中都运行了相同的 Canny Edge Detection 的 cuda 代码，发现 gtx 965 比 Tesla K20 快得多（200%）。我还观察到 Tesla C2075 的运行与 Tesla K20 的运行相同。

据我所知K20有2496核，965有1024核，C2075有448核。K20 和 C2075 是 NVIDIA Kepler 架构，965 是 Maxwell 架构。

我做错了什么或者导致这个问题的硬件部分有什么不同？

另外，我们可以使用任何程序或理论计算来检查显卡消耗的功率吗？

score 2 · Accepted Answer

许多内核并不一定意味着更短的执行时间。如果您的 CUDA 应用程序仅使用单线程并且您将在以下位置运行您的应用程序：

...那么显然GTX965可以更快地工作。理论上，只要您的应用程序使用少于 1024 个内核，GTX 就可以胜过 K20，以防内存不是 K20 实际的瓶颈：

因此，总而言之，在考虑硬件限制的情况下，很容易“定制”CUDA 应用程序以比其他 GPU 更适合一个 GPU。只需考虑内核启动参数等简单的事情，即网格大小和块大小。

此外，根据规格，C2075 也是如此，其核心时钟为 1.15GHz，因此优于 K20 和 GTX965 。

1 回答 1