根据此链接https://docs.nvidia.com/nsight-compute/ProfilingGuide/index.html:
Warp 在等待 MIO(内存输入/输出)指令队列未满时停止。在极端使用 MIO 流水线(包括特殊数学指令、动态分支以及共享内存指令)的情况下,这种停顿的原因很高。
根据这一https://docs.nvidia.com/drive/drive_os_5.1.12.0L/nsight-graphics/activities/index.html:
可能由本地、全局、共享、属性、IPA、索引恒定负载 (LDC) 和解耦数学触发。
我的理解是所有的内存操作都是在 LSU 上执行的,所以我会想象它们一起存储在同一个指令队列中,然后由 LSU 单元执行。由于它们都排在一起,因此第二种解释(包括全局内存访问)对我来说更有意义。问题是,如果是这样的话,LG Throttle 就没有必要了。
MIO Throttle 究竟意味着什么?所有内存指令是否都存储在同一个队列中?