我在编译我的 .cu 代码时使用了 --ptax-options=-v ,它给出了以下内容:
ptxas info: Used 74 registers, 124 bytes smem, 16 bytes cmem[1]
我的卡的 devQuery 返回以下内容:
rev: 2.0
name: tesla c2050
total shared memory per block: 49152
total reg. per block: 32768
现在,我将这些数据输入到 cuda 占用计算器中,如下所示:
1.) 2.0
1.b) 49152
2.) threads per block: x
registers per thread: 74
shared memory per block (bytes): 124
我正在改变 x(每个块的线程数),以便 x*74<=32768。例如,我输入 128(或 256)代替 x。我是否通过占用计算器正确输入了所有必需的值?谢谢。