4

我正在尝试确定 Titan V / V100 上深度学习模型的 GPU 执行性能瓶颈。我了解必须满足某些要求才能在基于https://devblogs.nvidia.com/parallelforall/programming-tensor-cores-cuda-9/的张量核心上执行底层内核执行

“nvprof”提供了一种将所有内核执行转储到 GPU 上的简单方法,但它似乎并没有说明是否实际使用了 Tensor Core。这是捕获此类信息的一种方式吗?

4

1 回答 1

4

根据NVIDIA 提供的这些名为“Training Neural Networks with Mixed Precision”的幻灯片nvprof,您可以查看是否使用了 Tensor Cores。

幻灯片的第 12 页基本上说要运行程序nvprof并寻找“884”内核。

例如

$ nvprof python test.py
...
37.024us 1 37.024us 37.024us 37.024us volta_fp16_s884gemm_fp16…
于 2018-10-18T18:49:17.457 回答