我在 CloudML 上使用 MNIST 的分布式版本,但我不确定是否理解训练阶段显示的日志:
INFO:root:Train [master/0], step 1693: Loss: 1.176, Accuracy: 0.464 (760.724 sec) 4.2 global steps/s, 4.2 local steps/s
INFO:root:Train [master/0], step 1696: Loss: 1.175, Accuracy: 0.464 (761.420 sec) 4.3 global steps/s, 4.3 local steps/s
INFO:root:Eval, step 1696: Loss: 0.990, Accuracy: 0.537
INFO:root:Train [master/0], step 1701: Loss: 1.175, Accuracy: 0.465 (766.337 sec) 1.0 global steps/s, 1.0 local steps/s
我一次随机批处理 200 多个示例。
为什么 Train acc/loss 和 Eval acc/loss 之间存在如此大的差距,eval 集的指标明显高于 train 集,而通常情况正好相反?
另外,全局步骤和本地步骤有什么区别?
我正在谈论的代码是here。task.py 正在调用创建图形的文件 model.py。