1

要在崩溃后恢复训练,不仅必须恢复模型,还必须恢复进入model.fit(...)进程状态的所有对象和参数。

在我费心去分叉keras代码来实现一个fitting对象之前,例如训练数据,我想知道标准方法(如果有的话)是什么,用于崩溃恢复以从中断的地方恢复 TensorFlow 2.0 训练。

还是有人真的填补了 TensorFlow 对象模型中这个明显的漏洞?

4

1 回答 1

0

检查点进程的规范方法tf.keras.Model.fit()ModelCheckpoint回调。

用法如下所示:

mode.fit(..., callbacks=[tf.keras.callbacks.ModelCheckpoint(checkpoint_dir)]

保存的检查点默认在每个训练 epoch 结束时生成,不仅包括模型的架构和权重值,还包括训练状态。如果你有兴趣,你可以在这里研究它的源代码。保存的训练状态包括

  • 优化器配置
  • 优化器的权重变量值(对于有状态的优化器,例如 Adam)
  • 损失和度量配置

这些是否涵盖了您心目中的所有训练状态?

于 2019-12-31T00:30:18.790 回答