0

我遇到了非收敛训练损失的问题。(批量:16,平均损失:10)。我尝试了以下方法 + 改变学习率 lr(初始 lr = 0.002 导致非常高的损失,大约 e+10)。然后使用 lr = e-6,损失似乎很小但不收敛。+ 为偏差添加初始化 + 为偏差和权重添加正则化

这是网络结构训练损失日志

希望收到您的来信最好的问候

4

0 回答 0