0

Tesla K20 型号单精度浮点性能峰值约为 3.52 TFlops,但双精度为 1.17 TFlops,因此比率为 3。Tesla K20X 有 3.95 和 1.31,Tesla K40 有 4.29 和 1.43 TFlops,比率似乎重复。我的问题是比率为 3 而不是 2 是否有原因,这对我来说似乎是合乎逻辑的,因为单精度和双精度之间的差异。我正在学习 GPUS 和 GPGPUS,所以我不太了解它。

在这个 pdf 的第二页有一个规格表。 NVIDIA-Tesla-Kepler-Family-Datasheet.pdf

4

1 回答 1

0

您列出的模型均基于 Kepler 架构,其峰值双精度率等于峰值单精度率的 1/3。这就是 NVIDIA 构建此硬件的方式。相比之下,上一代硬件 Fermi 的峰值双精度和单精度比率为 1/2。

您可以参考 NVIDIA 文档了解指令吞吐量,按指令类型和硬件生成:

http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#maximize-instruction-throughput

您会注意到消费级产品 (GeForce GTX) 通常具有低得多的双精度率 - 1/8、1/12、1/24 甚至 1/32,具体取决于硬件版本。

于 2014-11-22T02:49:53.923 回答