我正在训练一个 RNN,有时在一夜之间损失函数达到了 NaN。我一直在阅读,解决这个问题的方法是降低学习率。当尝试从我拥有的(唯一的)检查点重新开始训练并使用较小的学习率时,我仍然得到 NaN。这是否意味着我的检查站无法修复?有没有办法恢复这个或使用 tf.train.Saver 以保证我在模型到达不归路之前得到一个版本?
问问题
379 次
1 回答
0
如果您的检查点中有NaN
值,那么您可能无法做很多事情来恢复它。我想您可以用其他东西替换 NaN,但这不是原则性的。
您可能想查看是否存在没有NaN
值的早期检查点。tf.train.Saver
默认情况下最多保留 5 个先前的检查点,正是出于以下原因:
https://www.tensorflow.org/api_docs/python/tf/train/Saver
希望这可以帮助!
于 2017-05-12T14:15:19.563 回答