gpu - NVIDIA Tesla 中的单精度和双精度之间是否存在关系？

Question

Tesla K20 型号单精度浮点性能峰值约为 3.52 TFlops，但双精度为 1.17 TFlops，因此比率为 3。Tesla K20X 有 3.95 和 1.31，Tesla K40 有 4.29 和 1.43 TFlops，比率似乎重复。我的问题是比率为 3 而不是 2 是否有原因，这对我来说似乎是合乎逻辑的，因为单精度和双精度之间的差异。我正在学习 GPUS 和 GPGPUS，所以我不太了解它。

在这个 pdf 的第二页有一个规格表。 NVIDIA-Tesla-Kepler-Family-Datasheet.pdf

score 0 · Accepted Answer

您列出的模型均基于 Kepler 架构，其峰值双精度率等于峰值单精度率的 1/3。这就是 NVIDIA 构建此硬件的方式。相比之下，上一代硬件 Fermi 的峰值双精度和单精度比率为 1/2。

您可以参考 NVIDIA 文档了解指令吞吐量，按指令类型和硬件生成：

http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#maximize-instruction-throughput

您会注意到消费级产品 (GeForce GTX) 通常具有低得多的双精度率 - 1/8、1/12、1/24 甚至 1/32，具体取决于硬件版本。

gpu - NVIDIA Tesla 中的单精度和双精度之间是否存在关系？

1 回答 1

Related

Reference