所以我找到了这个维基百科资源
每个设备的最大驻留网格数(并发内核执行)
并且对于每个计算能力,它表示了一些并发内核,我认为这是并发内核的最大数量。
现在我收到了 GTX 1060,根据这个 nvidia CUDA 资源,它的计算能力为 6.1。根据我迄今为止对 CUDA 的了解,您可以在 NVCC 的编译时指定代码的虚拟计算能力,尽管使用 flag -arch=compute_XX
。
那么我的 GPU 是否会被硬件限制为 32 个并发内核,或者它是否能够使用-arch=compute_60
flag 来支持 128 个?