我正在尝试在大型数据集上构建一个简单的多层感知器模型,但我得到的损失值为 nan。奇怪的是:在第一个训练步骤之后,损失值不是 nan,而是大约 46(这是奇怪的低。当我运行逻辑回归模型时,第一个损失值大约是 ~3600)。但是,在那之后,损失值一直是 nan。我也使用 tf.print 来尝试调试它。
该模型的目标是预测约 4500 个不同的类别——所以这是一个分类问题。使用 tf.print 时,我看到在第一个训练步骤(或通过 MLP 前馈)之后,来自最后一个全连接层的预测似乎是正确的(所有在 1 和 4500 之间变化的数字)。但是,在那之后,最后一个全连接层的输出要么全为 0,要么变为其他常数(0 0 0 0 0)。
有关我的模型的一些信息:
3层模型。所有全连接层。
批量大小为 1000
0.001 的学习率(我也尝试了 0.1 和 0.01 但没有任何改变)
使用 CrossEntropyLoss(我确实添加了一个 epsilon 值来防止 log0)
使用亚当优化器
学习率衰减为 0.95
该模型的确切代码如下:(我使用的是 TF-Slim 库)
input_layer = slim.fully_connected(model_input, 5000, activation_fn=tf.nn.relu)
hidden_layer = slim.fully_connected(input_layer, 5000, activation_fn=tf.nn.relu)
output = slim.fully_connected(hidden_layer, vocab_size, activation_fn=tf.nn.relu)
output = tf.Print(output, [tf.argmax(output, 1)], 'out = ', summarize = 20, first_n = 10)
return {"predictions": output}
任何帮助将不胜感激!非常感谢!