我一直在分析应用程序nvprof and nvvp (5.5)
以优化它。但是,当我分析调试()和发布版本的代码时,对于某些指标/事件(如inst_replay_overhead
、ipc
或等),我会得到完全不同的结果。branch_efficiency
-G
所以我的问题是:我应该配置哪个版本?发布版还是调试版?或者选择取决于我在寻找什么?
我找到了CUDA - Visual Profiler and Control Flow Divergence,其中声明需要调试(-G
)版本才能正确测量发散分支指标,但我不确定其他指标。