0

我正在 TensorFlow 中训练 GPT2 文本生成模型,并在我的文本语料库中执行单个 epoch。我的问题是,我怎样才能每隔 10 步左右保存我的模型?我的模型在第 100 步时突然停止训练,只剩下 20 步了....oooof。

我知道 Model_Checkpoint() 回调,但似乎我无法替换参数中的stepsfor 。epochsave_freq

tf.keras.callbacks.ModelCheckpoint(
    filepath, monitor='val_loss', verbose=0, save_best_only=False,
    save_weights_only=False, mode='auto', save_freq='epoch', **kwargs)

https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/ModelCheckpoint

4

1 回答 1

1

设置save_freq = 1。这应该节省每一步。我不建议这样做,因为它会在保存的 i/o 上花费大量时间并减慢您的训练速度。

于 2020-07-06T03:14:26.600 回答