占用率定义为活动扭曲的数量超过一个流多处理器上支持的最大扭曲的数量。假设我在一个 SM 上运行了 4 个块,每个块有 320 个线程,即 10 个 warp,所以一个 SM 上有 40 个 warp。占用率为 40/48,假设一个 SM 上的最大扭曲为 48 (CC 2.x)。
但总的来说,我在一个 SM 上运行了 320 * 4 个线程,而一个 SM 上只有 48 个 CUDA 内核。为什么入住率不是100%?我正在使用所有 CUDA 内核...
我很确定我错过了什么......
占用率定义为活动扭曲的数量超过一个流多处理器上支持的最大扭曲的数量。假设我在一个 SM 上运行了 4 个块,每个块有 320 个线程,即 10 个 warp,所以一个 SM 上有 40 个 warp。占用率为 40/48,假设一个 SM 上的最大扭曲为 48 (CC 2.x)。
但总的来说,我在一个 SM 上运行了 320 * 4 个线程,而一个 SM 上只有 48 个 CUDA 内核。为什么入住率不是100%?我正在使用所有 CUDA 内核...
我很确定我错过了什么......