c# - 为什么 CUDA 内核中的 z 总是为零

Question

我正在使用 Cudafy 在 NVIDIA GPU 上进行一些计算。（Quadro K1100M 功能 3.0，如果重要的话）

我的问题是，当我使用以下

cudaGpu.Launch(new dim3(44,8,num), new dim(8, 8)).MyKernel...

当我在内核中使用它时，为什么 GThread 实例中的 z 索引总是为零？

int z = thread.blockIdx.z * thread.blockDim.z + thread.threadIdx.z;

此外，如果我必须做类似的事情

cudaGpu.Launch(new dim3(44,8,num), new dim(8, 8, num)).MyKernel...

z 确实给出了不同的索引，但是由于每个块的线程数的限制， num 不能很大。关于如何解决这个问题的任何建议？

编辑

另一种表达方式。当块大小仅为 2D 时，我可以在内核中使用 thread.z（用于任何有用的东西）吗？

score 5 · Accepted Answer

在所有当前支持的硬件上，CUDA 允许使用三维网格和三维块。在计算能力 1.x 设备（不再受支持）上，网格仅限于二维。

但是，CUDAfy 目前使用已弃用的运行时 API 函数来启动内核，并且仅静默使用 gridDim.x 和 gridDim.y，而不考虑 gridDim.z：

_cuda.Launch(function, gridSize.x, gridSize.y);

因此，虽然您可以在 CUDAfy 中指定三维网格，但在内核启动期间会忽略第三维。感谢 Florent 指出这一点！

1 回答 1