docker - 在 AML docker 上运行 Pytorch 时，纪元时间增加

Question

在 AML 和自定义 docker 映像上运行 Pytorch 训练时，纪元时间不断增加。当相同的代码在本地运行时，epoch 时间是恒定的（这里的区别是不涉及 docker 映像并且训练数据集存在于本地，因此不是 AML 挂载的 blob 存储，并且机器不同）

关于如何弄清楚发生了什么的任何建议？例如，我如何记录有用的内存消耗？GPU、Pytorch、磁盘访问等

score 0 · Accepted Answer

虽然不是一种完全脚本化的方式，但我通常通过在会话中运行我的训练来进行这种调试，在第二个终端中tmux激活htop，在你的情况下nvidia-smi -l 1在第三个终端中。

您是挂载 blob 存储还是将数据下载到计算集群？

1 回答 1