我想知道我可以在 GPU 上调度的线程/线程组的“网格”。我正在使用 Direct Compute,所以我将给出一个使用该 API 的具体示例。例如,如果我调用 Dispatch(2,2,2),我理解它总共分派了 2x2x2 = 8 个线程组。但是,如果我调用 Dispatch(8,1,1),它也调度 8x1x1 = 8 个线程组,有什么区别?有性能差异吗?
PS与GPU上的线程相同的问题。在计算 (.hlsl) 文件中声明的 numthreads(2,2,2) 和 numthreads(8,1,1) 有什么区别?
任何帮助,将不胜感激。