我的印象是计算能力 1.x GPU 中的(单个)warp 调度程序每 4 个周期每个 warp 发出一条指令,并且由于算术流水线的延迟是 24 个周期,因此可以通过 6 个活动 warp 完全隐藏它在任何时候。
对于计算能力 2.1 GPU,编程指南提到“在每个指令发出时间,每个调度程序都会发出两条独立的指令”,而CUDA warp 调度程序如何一次发出 2 条指令的帖子?建议每个调度程序可以在每个周期的每个 warp 发出一条指令。
那么warp调度程序的确切延迟是多少?每个warp每多少个周期发出一条指令?是否同时向任何活动和准备好的经线发出不同的指令(MIMD)?