我正在训练一个复杂的神经网络架构,然后我使用 RNN 来编码我的输入,一个带有 softmax 输出层的深度神经网络。
我现在正在优化我的架构深度神经网络部分(单元数和隐藏层数)。
我目前正在对所有层使用 sigmoid 激活。这对于少数隐藏层似乎没问题,但随着层数的增加,sigmoid 似乎不是最佳选择。
你认为我应该先对 sigmoid 进行超参数优化,然后是 ReLu,还是直接使用 ReLu 更好?
另外,考虑到我有一个 softmax 输出,你认为在第一个隐藏层中使用 Relu 并在最后一个隐藏层中使用 sigmoid 是否有意义。