0

所以我找到了这个维基百科资源

每个设备的最大驻留网格数(并发内核执行)

并且对于每个计算能力,它表示了一些并发内核,我认为这是并发内核的最大数量。

现在我收到了 GTX 1060,根据这个 nvidia CUDA 资源,它的计算能力为 6.1。根据我迄今为止对 CUDA 的了解,您可以在 NVCC 的编译时指定代码的虚拟计算能力,尽管使用 flag -arch=compute_XX

那么我的 GPU 是否会被硬件限制为 32 个并发内核,或者它是否能够使用-arch=compute_60flag 来支持 128 个?

4

1 回答 1

3

根据NVIDIA CUDA 编程指南计算能力 6.1 中的表 13,设备最多有 32 个驻留网格 = 32 个并发内核。

即使您使用该-arch=compute_60标志,您也将被限制为 32 个并发内核的硬件限制。选择要编译的特定架构不允许您超出机器的硬件限制。

于 2016-12-11T22:55:26.330 回答