要在崩溃后恢复训练,不仅必须恢复模型,还必须恢复进入model.fit(...)
进程状态的所有对象和参数。
在我费心去分叉keras
代码来实现一个fitting
对象之前,例如训练数据,我想知道标准方法(如果有的话)是什么,用于崩溃恢复以从中断的地方恢复 TensorFlow 2.0 训练。
还是有人真的填补了 TensorFlow 对象模型中这个明显的漏洞?
要在崩溃后恢复训练,不仅必须恢复模型,还必须恢复进入model.fit(...)
进程状态的所有对象和参数。
在我费心去分叉keras
代码来实现一个fitting
对象之前,例如训练数据,我想知道标准方法(如果有的话)是什么,用于崩溃恢复以从中断的地方恢复 TensorFlow 2.0 训练。
还是有人真的填补了 TensorFlow 对象模型中这个明显的漏洞?
检查点进程的规范方法tf.keras.Model.fit()
是ModelCheckpoint回调。
用法如下所示:
mode.fit(..., callbacks=[tf.keras.callbacks.ModelCheckpoint(checkpoint_dir)]
保存的检查点默认在每个训练 epoch 结束时生成,不仅包括模型的架构和权重值,还包括训练状态。如果你有兴趣,你可以在这里研究它的源代码。保存的训练状态包括
这些是否涵盖了您心目中的所有训练状态?