我使用 Parallel Nsight 2.2 来分析我用 CUDA 4.2 编写的代码。结果是:分支效率=0.9,而控制流执行效率=0.26。
从用户指南,
Branch Efficiency=({Branches} - {Diverged Branches}) / {Branches}
Control Flow Efficiency={Thread Instructions Executed} / {Instructions Executed} / {Warps Size}
我很困惑:更高的分支效率不是意味着有更多的活动线程在一个扭曲中执行相同的指令,因此更高的控制流效率吗?高分支效率和低控制流效率意味着什么?非常感谢您的任何评论。