9

在访问共享内存时,Kepler 的带宽是 Fermi 的 2 倍还是 4 倍?

编程指南指出:“每个 bank 的带宽为每两个时钟周期 32 位”(对于 2.X),并且“每个 bank 的带宽为每时钟周期 64 位”(3.X),所以暗示 4x?

4

2 回答 2

9

在 Fermi 上,每个 SM 有 32 个存储体,每两个时钟周期提供 32 位。

在 Kepler 上,每个 SMX 有 32 个存储体,每个时钟周期提供 64 位。然而,由于 Kepler 的 SMX 从根本上重新设计为节能,并且由于运行快速时钟会消耗大量功率,因此 Kepler 使用慢得多的核心时钟运行。查看大约 8 分钟后来自 GTC 的Inside Kepler演讲,了解更多信息。

所以这个问题的答案是开普勒有大约 2 倍,而不是 4 倍。

文档的下一版本(CUDA 5.0)应该更好地解释这一点。

于 2012-09-10T16:50:48.817 回答
1

如给出的

编程指南 4.2:共享内存有 16 个存储区,这些存储区被组织成连续的 32 位字映射到连续的存储区。每个存储体的带宽为每两个时钟周期 32 位。

Kepler 白皮书:与 Fermi SM 相比,64b 和更大负载操作的共享内存带宽也翻了一番,达到每个核心时钟 256B。

对于小负载操作,它是 4 倍。

于 2012-09-10T16:50:29.140 回答