我有一个计算能力 1.3 GPU。根据文档,当相同半扭曲的线程根据字长从相同的 32-64 或 128 字节内存段访问字节时,这些内存访问将合并为一个。
但是,在使用 cudaMallocPitch() 分配的二维数组的情况下,当同一个 half-warp 的线程访问连续字节时,是否保证这些字节驻留在同一个内存段?
CUDA有一个类似的问题合并访问全局内存,但不包括计算能力 1.3 GPU 与 2D 阵列。
我有一个计算能力 1.3 GPU。根据文档,当相同半扭曲的线程根据字长从相同的 32-64 或 128 字节内存段访问字节时,这些内存访问将合并为一个。
但是,在使用 cudaMallocPitch() 分配的二维数组的情况下,当同一个 half-warp 的线程访问连续字节时,是否保证这些字节驻留在同一个内存段?
CUDA有一个类似的问题合并访问全局内存,但不包括计算能力 1.3 GPU 与 2D 阵列。