在最近的 nVIDIA GPU uarchitectures 中,单个流式多处理器似乎被分解为 4 个子单元;它们中的每一个都有 8 个“正方形”的水平或垂直“条”,对应于不同的功能单元:整数运算、32 位触发器、64 位触发器和加载/存储。一个单一的扭曲调度器似乎与每个这样的“季度 SM”相关联。
现在,在 CUDA 编程模型中,每个 warp 的线程(= 32 个线程)被指令锁定在一起。但是,当实际执行工作时,并且在这种情况下,比如说,warp 中只有后半部分或后四分之一的线程处于活动状态 - 这些 sub-warp 是否可以安排到 2 或 3 个季度 SM,而另一季度-SM 在做其他工作吗?