0

在 AML 和自定义 docker 映像上运行 Pytorch 训练时,纪元时间不断增加。当相同的代码在本地运行时,epoch 时间是恒定的(这里的区别是不涉及 docker 映像并且训练数据集存在于本地,因此不是 AML 挂载的 blob 存储,并且机器不同)

关于如何弄清楚发生了什么的任何建议?例如,我如何记录有用的内存消耗?GPU、Pytorch、磁盘访问等

4

1 回答 1

0

虽然不是一种完全脚本化的方式,但我通常通过在会话中运行我的训练来进行这种调试,在第二个终端中tmux激活htop,在你的情况下nvidia-smi -l 1在第三个终端中。

您是挂载 blob 存储还是将数据下载到计算集群?

于 2020-06-07T12:05:24.047 回答