我正在使用 nvprof 对 Tensorflow 及其 XLA jit 编译进行一些分析。有趣的是,XLA 将引入更多的 cuMemcpyHtoDAsync 调用。
例如 V100 上的 resnet50,在 batch=64 推理下,xla jit 平均会多出 5000 次 cuMemcpyHtoDAsync 调用。该脚本可用 dl-infer-perf, nvprof -f --csv --print-api-summary python3 infer_perf/to_xla.py mobilenet --batch=64 --threads=1
.
对此的任何想法将不胜感激。