我最近完成了Cloud ML Criteo 教程,“小型”数据集(约 40M 示例)上的分布式训练作业的最终日志消息之一是:
Saving dict for global step 7520: accuracy = 0.78864, ...
“全局步骤”在这里指的是什么?我原本以为是:
global step = (number of training examples * number of epochs) / batch size
但是训练集大小为 40.8M,batch 大小为 30K,epoch 数为 5,所以这不会导致正确答案:
(40.8M x 5) / 30K = 6800