machine-learning - 深度神经网络不学习

Question

我正在用新创建的激活函数在 8 层 (1568-784-512-256-128-64-32-10) 全连接深度神经网络上训练 MNIST，如下图所示。这个函数看起来有点类似于然而，ReLU 在“扭结”处给出了一个垃圾曲线。

当我用它来训练 5 层、6 层和 7 层的全连接神经网络时，它工作得很好。当我在 8 层全连接神经网络中使用它时，问题就出现了。它只会在第 1 个 epoch 学习然后停止学习（Test Loss 给出“nan”并且测试准确率下降到 9.8%）。为什么会这样？

我的其他配置如下：Dropout=0.5，权重初始化=Xavier初始化，学习率=0.1

score 2 · Accepted Answer

我相信这被称为梯度消失问题，通常发生在深度网络中。解决它没有硬性规定。我的建议是重塑您的网络架构

1 回答 1