我正在寻找在 GPU 级别记录利用率的方法。我对利用率有两个定义,乐观地我希望能够同时计算两者:
- GPU 在一个时间实例中运行/使用的 cuda 核心数。
- 峰值效率每秒的 FLOPS 数。
我知道有一些工具,但它们都没有提供任何信息。例如:
的利用率
Nvidia-smi
显示时间内核的时间百分比,无论有多少内核和此执行的速度,对于 nvtop 和 gpustat 等工具也是如此。诸如
Tensor-Flow Profiler
和之类的分析器nvprof
显示了 FLOP 方面的效率,但在内核/程序级别上,并且不管并行运行多个的效果如何。
我对工具和基于代码的解决方案持开放态度。