-1

我正在做一个项目,我必须比较各种 gpu 卡以进行性能分析。

我在两个 GPU 中都运行了相同的 Canny Edge Detection 的 cuda 代码,发现 gtx 965 比 Tesla K20 快得多(200%)。我还观察到 Tesla C2075 的运行与 Tesla K20 的运行相同。

据我所知K20有2496核,965有1024核,C2075有448核。K20 和 C2075 是 NVIDIA Kepler 架构,965 是 Maxwell 架构。

我做错了什么或者导致这个问题的硬件部分有什么不同?

另外,我们可以使用任何程序或理论计算来检查显卡消耗的功率吗?

4

1 回答 1

2

许多内核并不一定意味着更短的执行时间。如果您的 CUDA 应用程序仅使用单线程并且您将在以下位置运行您的应用程序:

  • K20,拥有大量706MHz频率的核心,
  • 与 GTX965 不同,GTX965 大约有一半,但工作频率为 944MHz

...那么显然GTX965可以更快地工作。理论上,只要您的应用程序使用少于 1024 个内核,GTX 就可以胜过 K20,以防内存不是 K20 实际的瓶颈:

  • 更大的内存带宽,
  • 总体而言,内存要多得多,
  • 稍微高一点的内存时钟。

因此,总而言之,在考虑硬件限制的情况下,很容易“定制”CUDA 应用程序以比其他 GPU 更适合一个 GPU。只需考虑内核启动参数等简单的事情,即网格大小和块大小。

此外,根据规格,C2075 也是如此,其核心时钟为 1.15GHz,因此优于 K20 和 GTX965

于 2015-04-29T14:20:02.927 回答