在 AML 和自定义 docker 映像上运行 Pytorch 训练时,纪元时间不断增加。当相同的代码在本地运行时,epoch 时间是恒定的(这里的区别是不涉及 docker 映像并且训练数据集存在于本地,因此不是 AML 挂载的 blob 存储,并且机器不同)
关于如何弄清楚发生了什么的任何建议?例如,我如何记录有用的内存消耗?GPU、Pytorch、磁盘访问等
在 AML 和自定义 docker 映像上运行 Pytorch 训练时,纪元时间不断增加。当相同的代码在本地运行时,epoch 时间是恒定的(这里的区别是不涉及 docker 映像并且训练数据集存在于本地,因此不是 AML 挂载的 blob 存储,并且机器不同)
关于如何弄清楚发生了什么的任何建议?例如,我如何记录有用的内存消耗?GPU、Pytorch、磁盘访问等