为什么blockDim
CUDA 程序中一个块中的线程总数对于网格中的所有块都相同?我知道如果所有块的块大小都相同,索引将非常容易,但如果我有大小为 32 倍数的块(对于扭曲)但按递增顺序,则可能 AP 或 GP 索引非常容易。
使网格的所有块大小相同的原因是什么?
为什么blockDim
CUDA 程序中一个块中的线程总数对于网格中的所有块都相同?我知道如果所有块的块大小都相同,索引将非常容易,但如果我有大小为 32 倍数的块(对于扭曲)但按递增顺序,则可能 AP 或 GP 索引非常容易。
使网格的所有块大小相同的原因是什么?