0

我有一个关于计算能力 1.3 和 2.0 gpu 卡的调度过程的问题。在这两种情况下,每次在流式多处理器上调度的最大块数都是 8,至少这是我从占用计算器中注意到的。

在 1.3 卡中,每个 SM 有 8 个内核,而在 2.0 卡中,每个 SM 有 32 个内核。块进程的核心是如何分布的?

对于 1.3,每个核心进程 1 块吗?如果是这样,如果每个 SM 的块少于 8 个,那么分配的核心多于一个来处理一个块?

对于 2.0,如果在 SM 中调度了 8 个块,那么是否分配了 4 个核心来处理一个块?如果 SM 中的块较少,那么会安排更多的内核进行块计算?

谢谢你。

4

1 回答 1

3

单个 SM 中的所有内核都以同步方式工作(至少达到 cc 2.0)。当与单个锁步扭曲关联的线程由于某种原因停止时,如果它准备好运行,调度程序将引入另一个扭曲。新的经线可能来自相同或不同的线程块,即。从目前可能驻留在该 SM 上的最多 8 个线程块中。

您可能有兴趣阅读编程指南的这一部分

于 2013-05-13T15:14:47.727 回答