我在使用 CUDA nvprof分析器时遇到了一些问题。网站上的一些指标的命名与分析器中的不同,并且这些变量似乎没有在网站上的任何地方或网络上的任何地方解释(我无法找到任何有效的参考资料) .
我解码了其中的大部分(这里:用 nvprof 计算 gst_throughput 和 gld_throughput),但我仍然不确定:
elapsed_cycles
max_warps_per_sm
任何人都知道如何计算这些?
我正在尝试使用nvprof通过 cmdline 评估大约 6000 个不同的内核,因此使用可视化分析器对我来说并不可行。
任何帮助表示赞赏。非常感谢!
编辑:我正在使用什么:
CUDA 5.0,GTX480,即 cc。2.0。
我已经做了什么:
我制作了一个脚本,该脚本从分析器文档站点获取每个指标的公式,解决任何给定指标的依赖关系,通过 nvprof 提取它们,然后计算结果。这涉及使用(相当大的)sed 脚本,该脚本将站点上出现的所有变量更改为分析器实际接受的具有相同含义的变量。基本上我已经通过 nvprof 模拟了 grepping 指标。我只是遇到了这些问题:
为什么这些具体变量存在问题:
max_warps_per_sm - 如果它是 cc 的边界或我可能以某种方式丢失并且特定于我的程序的另一个指标/事件(这不足为奇,因为探查器文档中的某些变量有 3 个(!)不同的名称都是为了同一件事)。
elapsed_cycles - 我在 nvprof --query-events 的输出中没有 elapsed_cycles。甚至没有包含“elapse”一词的任何内容,唯一包含“cycle”的内容是“active_cycles”。会是这样吗?有没有其他计算方法?使用“gputime”而不是这个变量有什么害处吗?我不需要绝对数字,我用它来查找相关性和分析代码,所以如果“gputime”=“elapsed_cycles”* CONSTANT,我完全可以接受。