Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
假设一个 SM 已经填充了 8 个块,每个块有 64 个线程。
这给了我们 2 个经线/块,总共 16 个经线。SM 可以在 warp 之间交替以隐藏延迟。例如,这些经线必须属于同一个方块,还是可以用来自第 8 块的经线替换来自第 5 块的经线?
是的,SM 调度程序可以“交替”或从驻留在该 SM 上的任何人中选择用于调度的 warp。
事实上,SM 的最大可能扭曲负载(对于某些 GPU,目前为 64)或线程负载(对于某些 GPU,目前为 2048)超过了单个块的可能限制(对于所有支持的 GPU,目前为 1024)最近的 CUDA 工具包)是为了让 SM 可以从不同的块中选择 warp 进行调度,以提高隐藏延迟的可能性。