cuda - 在 CUDA 中，什么是内存合并，它是如何实现的？

Question

什么是 CUDA 全局内存事务中的“合并”？即使通过我的 CUDA 指南，我也无法理解。怎么做？在 CUDA 编程指南矩阵示例中，逐行访问矩阵称为“合并”或 col.. by col.. 称为合并？哪个是正确的，为什么？

score 167 · Accepted Answer

此信息可能仅适用于计算能力 1.x 或 cuda 2.0。更新的架构和 cuda 3.0 具有更复杂的全局内存访问，实际上甚至没有为这些芯片配置“合并的全局负载”。

此外，此逻辑可应用于共享内存以避免存储库冲突。

合并内存事务是一个半扭曲中的所有线程同时访问全局内存的事务。这过于简单，但正确的做法是让连续的线程访问连续的内存地址。

因此，如果线程 0、1、2 和 3 读取全局内存 0x0、0x4、0x8 和 0xc，则应该是合并读取。

在矩阵示例中，请记住您希望矩阵线性驻留在内存中。您可以根据需要执行此操作，并且您的内存访问应反映矩阵的布局方式。所以，下面的 3x4 矩阵

0 1 2 3
4 5 6 7
8 9 a b

可以像这样逐行完成，以便 (r,c) 映射到内存 (r*4 + c)

0 1 2 3 4 5 6 7 8 9 a b

假设您需要访问一次元素，并假设您有四个线程。哪些线程将用于哪个元素？可能要么

thread 0:  0, 1, 2
thread 1:  3, 4, 5
thread 2:  6, 7, 8
thread 3:  9, a, b

或者

thread 0:  0, 4, 8
thread 1:  1, 5, 9
thread 2:  2, 6, a
thread 3:  3, 7, b

哪个更好？哪个会导致合并读取，哪个不会？

无论哪种方式，每个线程都会进行 3 次访问。让我们看一下第一次访问，看看线程是否连续访问内存。在第一个选项中，第一次访问是 0、3、6、9。不连续，不合并。第二个选项，是0、1、2、3。连续！合并！耶！

最好的方法可能是编写您的内核，然后对其进行分析以查看您是否有未合并的全局加载和存储。

score 15 · Accepted Answer

内存合并是一种允许优化使用全局内存带宽的技术。也就是说，当并行线程运行相同的指令访问全局内存中的连续位置时，实现了最有利的访问模式。

在此处输入图像描述

上图中的示例有助于解释合并安排：

在图（a）中，长度为m的n 个向量以线性方式存储。向量j的元素i由v _jⁱ表示。GPU 内核中的每个线程都分配给一个m长度的向量。CUDA 中的线程被分组在一个块数组中，GPU 中的每个线程都有一个唯一的 id，可以定义为，其中表示块维度，表示块索引，是每个块中的线程索引。 indx=bd*bx+txbdbxtx

垂直箭头表示并行线程访问每个向量的第一个分量的情况，即内存的地址 0、m、 2m ……。如图（a）所示，在这种情况下，内存访问不是连续的。通过将这些地址之间的间隙归零（上图中的红色箭头），内存访问就会合并。

但是，这里的问题有点棘手，因为每个 GPU 块允许的驻留线程大小限制为bd. 因此，可以通过bd以连续顺序存储第一个向量的第一个元素，然后是第二个 bd 个向量的第一个元素等等来完成合并数据排列。其余的向量元素以类似的方式存储，如图（b）所示。如果n（向量的数量）不是的因数bd，则需要用一些平凡的值（例如 0）填充最后一个块中的剩余数据。

在图 (a) 的线性数据存储中，向量indx (0 ≤ indx < n ) 的分量i (0 ≤ i < m )由寻址；图（b）中的合并存储模式中的相同组件被称为m × indx +i

(m × bd) ixC + bd × ixB + ixA,

其中ixC = floor[(m.indx + j )/(m.bd)]= bx,ixB = j和ixA = mod(indx,bd) = tx.

总之，在存储多个大小为m的向量的示例中，线性索引根据以下公式映射到合并索引：

m.indx +i −→ m.bd.bx +i .bd +tx

这种数据重新排列可以导致 GPU 全局内存的显着更高的内存带宽。

来源：“非线性有限元变形分析中基于 GPU 的计算加速。” 生物医学工程数值方法国际期刊（2013 年）。

score 11 · Accepted Answer

如果块中的线程正在访问连续的全局内存位置，则所有访问都由硬件组合成一个请求（或合并）。在矩阵示例中，行中的矩阵元素线性排列，然后是下一行，依此类推。例如，对于一个块中的 2x2 矩阵和 2 个线程，内存位置安排为：

(0,0) (0,1) (1,0) (1,1)

在行访问中，thread1 访问无法合并的 (0,0) 和 (1,0)。在列访问中，thread1 访问的 (0,0) 和 (0,1) 可以合并，因为它们是相邻的。

score 3 · Accepted Answer

合并的标准在CUDA 3.2 Programming Guide的 G.3.2 节中有很好的记录。简短的版本如下：warp 中的线程必须按顺序访问内存，并且被访问的字应该 >=32 位。此外，warp 访问的基地址应分别为 64、128 或 256 字节对齐，以分别用于 32、64 和 128 位访问。

Tesla2 和 Fermi 硬件在合并 8 位和 16 位访问方面做得不错，但如果您想要峰值带宽，最好避免使用它们。

请注意，尽管 Tesla2 和 Fermi 硬件有所改进，但合并绝不是过时的。即使在 Tesla2 或 Fermi 类硬件上，未能合并全局内存事务也可能导致 2 倍的性能损失。（在 Fermi 类硬件上，这似乎仅在启用 ECC 时才成立。连续但未合并的内存事务对 Fermi 造成大约 20% 的打击。）

cuda - 在 CUDA 中，什么是内存合并，它是如何实现的？

4 回答 4

Related

Reference