我有一个以分布式模式运行 4000 步的模型。每 120 秒计算一次精度(如提供的示例中所做的那样)。但是,有时找不到最后一个检查点文件。
错误:
无法匹配检查点 gs://path-on-gcs/train/model.ckpt-1485 的文件
检查点文件位于该位置。2000 步的本地运行完美运行。
last_checkpoint = tf.train.latest_checkpoint(train_dir(FLAGS.output_path))
我假设检查点仍在保存过程中,并且文件实际上并未写入。尝试在这样计算精度之前引入等待。但是,起初这似乎可行,该模型仍然因类似问题而失败。
saver.save(session, sv.save_path, global_step)
time.sleep(2) #wait for gcs to be updated