cuda - 共享内存带宽 Fermi vs Kepler GPU

Question

在访问共享内存时，Kepler 的带宽是 Fermi 的 2 倍还是 4 倍？

编程指南指出：“每个 bank 的带宽为每两个时钟周期 32 位”（对于 2.X），并且“每个 bank 的带宽为每时钟周期 64 位”（3.X），所以暗示 4x？

score 9 · Accepted Answer

在 Fermi 上，每个 SM 有 32 个存储体，每两个时钟周期提供 32 位。

在 Kepler 上，每个 SMX 有 32 个存储体，每个时钟周期提供 64 位。然而，由于 Kepler 的 SMX 从根本上重新设计为节能，并且由于运行快速时钟会消耗大量功率，因此 Kepler 使用慢得多的核心时钟运行。查看大约 8 分钟后来自 GTC 的Inside Kepler演讲，了解更多信息。

所以这个问题的答案是开普勒有大约 2 倍，而不是 4 倍。

文档的下一版本（CUDA 5.0）应该更好地解释这一点。

score 1 · Accepted Answer

如给出的

编程指南 4.2：共享内存有 16 个存储区，这些存储区被组织成连续的 32 位字映射到连续的存储区。每个存储体的带宽为每两个时钟周期 32 位。

Kepler 白皮书：与 Fermi SM 相比，64b 和更大负载操作的共享内存带宽也翻了一番，达到每个核心时钟 256B。

对于小负载操作，它是 4 倍。

cuda - 共享内存带宽 Fermi vs Kepler GPU

2 回答 2

Related

Reference