我正在尝试使用带有 PGI 15.7 编译器的 openacc 来加速我的代码。
我想在 C 源代码级别分析我的代码。我正在使用 CUDA 7.0 中的“nvvp”分析器当我运行 nvvp 时,我可以使用“分析抽头”,并且可以了解哪个延迟是我的代码变慢的原因。(数据依赖,条件分支和带宽......等)
但是,我无法获得基于行的分析,而只能获得“内核”级别的分析。(例如 main_300_gpu 内核使用了 10 秒)。所以我很难知道我必须在哪里修复代码。
有没有办法在源代码级别分析我的代码?
我在用着
PGI 15.7(使用 pgcc)
CUDA 7.0
英伟达 GTX 960
Ubuntu 14.04 LTS x86_64