1

我正在寻找在 GPU 级别记录利用率的方法。我对利用率有两个定义,乐观地我希望能够同时计算两者:

  1. GPU 在一个时间实例中运行/使用的 cuda 核心数。
  2. 峰值效率每秒的 FLOPS 数。

我知道有一些工具,但它们都没有提供任何信息。例如:

  • 的利用率Nvidia-smi显示时间内核的时间百分比,无论有多少内核和此执行的速度,对于 nvtop 和 gpustat 等工具也是如此。

  • 诸如Tensor-Flow Profiler和之类的分析器nvprof显示了 FLOP 方面的效率,但在内核/程序级别上,并且不管并行运行多个的效果如何。

我对工具和基于代码的解决方案持开放态度。

4

1 回答 1

1

我可能错了,但我相信 nvprof 可以向您展示这些细节。您必须为时间线和指标运行它

nvprof --export-profile timeline.prof <your_bin>
nvprof --metrics all --export-profile metrics.prof <your_bin> 

然后,您可以将文件(在此示例中为 timeline.prof 和 metrics.prof)导入到 nvdia 可视分析器中,该分析器可以使用nvvp.

于 2020-07-20T09:39:31.643 回答