我在 CUDA 中获得每个网格的正确块数时遇到了一些困难。任何人都可以显示基本/简单的公式来计算 CUDA 内核中 2D 所需的块数吗?(即gridDim.x和gridDim.y)考虑到用户想要运行N个线程总数,并且他的块是A乘B(其中A * B <= 512或1024取决于计算能力),或者为了简单案例让我们假设他的积木是 8 x 8。再次感谢。你也能指出我们必须记住哪些事情,例如它们是否是二的幂真的很重要......
dim3 dimBlock(A,B);
dim3 dimGrid(Z,T);
我在找 Z 和 T。谢谢!!!