cuda - Nvprof、指标、elapsed_cycles 变量

Question

我在使用 CUDA nvprof分析器时遇到了一些问题。网站上的一些指标的命名与分析器中的不同，并且这些变量似乎没有在网站上的任何地方或网络上的任何地方解释（我无法找到任何有效的参考资料） .

我解码了其中的大部分（这里：用 nvprof 计算 gst_throughput 和 gld_throughput），但我仍然不确定：

elapsed_cycles
max_warps_per_sm

任何人都知道如何计算这些？

我正在尝试使用nvprof通过 cmdline 评估大约 6000 个不同的内核，因此使用可视化分析器对我来说并不可行。

任何帮助表示赞赏。非常感谢！

编辑：我正在使用什么：

CUDA 5.0，GTX480，即 cc。2.0。

我已经做了什么：

我制作了一个脚本，该脚本从分析器文档站点获取每个指标的公式，解决任何给定指标的依赖关系，通过 nvprof 提取它们，然后计算结果。这涉及使用（相当大的）sed 脚本，该脚本将站点上出现的所有变量更改为分析器实际接受的具有相同含义的变量。基本上我已经通过 nvprof 模拟了 grepping 指标。我只是遇到了这些问题：

为什么这些具体变量存在问题：

max_warps_per_sm - 如果它是 cc 的边界或我可能以某种方式丢失并且特定于我的程序的另一个指标/事件（这不足为奇，因为探查器文档中的某些变量有 3 个（！）不同的名称都是为了同一件事）。

elapsed_cycles - 我在 nvprof --query-events 的输出中没有 elapsed_cycles。甚至没有包含“elapse”一词的任何内容，唯一包含“cycle”的内容是“active_cycles”。会是这样吗？有没有其他计算方法？使用“gputime”而不是这个变量有什么害处吗？我不需要绝对数字，我用它来查找相关性和分析代码，所以如果“gputime”=“elapsed_cycles”* CONSTANT，我完全可以接受。

score 2 · Accepted Answer

您可以使用以下命令列出每个设备上可用的所有事件：

nvprof --查询事件

这不是很完整，但这是了解这些事件/指标是什么的良好开端。例如，使用 CUDA 5.0 和 CC 3.0 GPU，我们得到：

elapsed_cycles_sm：经过的时钟

elapsed_cycles_sm是每个多处理器经过的时钟周期数。如果你想为你的程序衡量这个指标：

nvprof --events elapsed_cycles_sm ./your_program

max_warps_per_sm非常简单：这是每个多处理器的最大驻留扭曲数。该值取决于计算能力（请参阅此处的图表）。这是一个硬件限制，无论您的内核是什么，在任何给定时间，每个多处理器的驻留扭曲都不会超过此值。

此外，探查器的在线文档中提供了更多信息，包括描述和公式。

更新

根据这个答案：

active_cycles：多处理器至少有一个活动扭曲的周期数。

cuda - Nvprof、指标、elapsed_cycles 变量

1 回答 1

更新

Related

Reference