我正在用新创建的激活函数在 8 层 (1568-784-512-256-128-64-32-10) 全连接深度神经网络上训练 MNIST,如下图所示。这个函数看起来有点类似于然而,ReLU 在“扭结”处给出了一个垃圾曲线。
当我用它来训练 5 层、6 层和 7 层的全连接神经网络时,它工作得很好。当我在 8 层全连接神经网络中使用它时,问题就出现了。它只会在第 1 个 epoch 学习然后停止学习(Test Loss 给出“nan”并且测试准确率下降到 9.8%)。为什么会这样?
我的其他配置如下:Dropout=0.5,权重初始化=Xavier初始化,学习率=0.1