tensorflow2.0 - 既然不是“检查点”，那么崩溃恢复恢复 TensorFlow 2.0 训练的标准方法是什么？

Question

要在崩溃后恢复训练，不仅必须恢复模型，还必须恢复进入model.fit(...)进程状态的所有对象和参数。

在我费心去分叉keras代码来实现一个fitting对象之前，例如训练数据，我想知道标准方法（如果有的话）是什么，用于崩溃恢复以从中断的地方恢复 TensorFlow 2.0 训练。

还是有人真的填补了 TensorFlow 对象模型中这个明显的漏洞？

score 0 · Accepted Answer

检查点进程的规范方法tf.keras.Model.fit()是ModelCheckpoint回调。

用法如下所示：

mode.fit(..., callbacks=[tf.keras.callbacks.ModelCheckpoint(checkpoint_dir)]

保存的检查点默认在每个训练 epoch 结束时生成，不仅包括模型的架构和权重值，还包括训练状态。如果你有兴趣，你可以在这里研究它的源代码。保存的训练状态包括

这些是否涵盖了您心目中的所有训练状态？

1 回答 1