cuda - 如何仅通过 nvprof 分析 CUDA 应用程序

Question

我想编写一个脚本来仅使用命令工具来分析我的 cuda 应用程序nvprof。目前，我主要关注两个指标：GPU 利用率和 GPU flops32 (FP32)。

GPU 利用率是 GPU 处于活动状态的时间的一部分。GPU的活动时间可以很容易地获得nvprof --print-gpu-trace，而应用程序的经过时间（没有开销）对我来说并不清楚。我使用视觉分析器nvvp来可视化分析结果并计算 GPU 利用率。似乎经过的时间是第一次和最后一次 API 调用之间的间隔，包括开销时间。

GPU flops32 是 GPU 处于活动状态时每秒执行的 FP32 指令数。我遵循 Greg Smith 的建议（如何计算内核的 Gflopsnvprof ），发现生成flop_count_sp_*指标非常慢。

所以我想问两个问题：

如何使用 nvprof 计算 CUDA 应用程序的运行时间（无开销）？
有没有更快的方法来获得 gpu flops32？

任何建议将不胜感激。

================更新=======================

对于上面的第一个问题，我的意思是没有开销的经过时间实际上是会话时间——开销时间显示在 nvvp 结果中：

nvvp结果

score 1 · Accepted Answer

您可以使用 nVIDIA 的 NVTX 库以编程方式标记时间线上的命名范围或点。这样一个范围的长度，正确定义，将构成您的“经过时间”，并且会在 nvvp 可视化工具中非常清楚地显示出来。这是有关执行此操作的“CUDA 专业提示”博客文章：

CUDA Pro 提示：使用 NVTX 生成自定义应用程序配置文件时间线

如果您想以更 C++ 友好和 RAII 的方式执行此操作，您可以使用我的CUDA 运行时 API 包装器，它提供范围范围标记和其他实用程序功能。当然，以我为作者，对我的推荐持保留态度，看看什么对你有用。

关于会话的“经过时间” - 这是您开始和停止分析活动之间的时间。这可以是在进程启动时，也可以是在您明确启动分析时。在我自己的 API 包装器中，也有一个 RAII 类：cuda::profiling::scope或者您当然可以显式使用 C 风格的 API 调用。（我真的应该写一个示例程序来做这个，不幸的是我还没有解决这个问题）。

cuda - 如何仅通过 nvprof 分析 CUDA 应用程序

1 回答 1

Related

Reference