我正在使用 TESLA T10 设备,它有 2 个 cuda 设备,一个块中的最大线程数是 512,每个维度的最大线程数是 (512,512,64),最大网格大小是 (65535,65535,1),它有 30每个 cuda 设备上的多处理器。
现在我想知道我可以并行运行多少个线程。我阅读了以前的解决方案,但没有一个能解决我的疑问。从以前的读取 =(30)*512 线程我可以并行运行(maxNoOfMultiprocessor * maxThreadBlockSize)
但是当我启动 512 个线程的 32 个块时,它仍然在工作,这怎么可能???我不了解每个维度中的这些最大线程以及最大网格尺寸部分,请举例说明.......提前致谢