-4

我正在用新创建的激活函数在 8 层 (1568-784-512-256-128-64-32-10) 全连接深度神经网络上训练 MNIST,如下图所示。这个函数看起来有点类似于然而,ReLU 在“扭结”处给出了一个垃圾曲线。

当我用它来训练 5 层、6 层和 7 层的全连接神经网络时,它工作得很好。当我在 8 层全连接神经网络中使用它时,问题就出现了。它只会在第 1 个 epoch 学习然后停止学习(Test Loss 给出“nan”并且测试准确率下降到 9.8%)。为什么会这样?

我的其他配置如下:Dropout=0.5,权重初始化=Xavier初始化,学习率=0.1

在此处输入图像描述

在此处输入图像描述

4

1 回答 1

2

我相信这被称为梯度消失问题,通常发生在深度网络中。解决它没有硬性规定。我的建议是重塑您的网络架构

请参阅此处 [避免深度神经网络中的梯度消失

于 2018-04-25T07:22:34.987 回答