计算工作负载分析显示不同计算管道的利用率。我知道在现代 GPU 中,整数和浮点管道是不同的硬件单元,可以并行执行。但是,对于其他流水线来说,哪个流水线代表哪个硬件单元还不是很清楚。我也找不到任何关于管道缩写和解释的在线文档。
我的问题是:
1) ADU、CBU、TEX、XU的全称是什么?它们如何映射到硬件?
2) 哪些流水线使用相同的硬件单元(例如 FP16、FMA、FP64 使用浮点单元)?
3)现代GPU中的warp调度器每个周期可以调度2条指令(使用不同的管道)。哪些管道可以同时使用(例如 FMA-ALU、FMA-SFU、ALU-Tensor 等)?