我目前正在尝试使用 Optuna 优化一个简单的 NN。除了学习率、批量大小等,我还想优化不同的网络架构。所以到目前为止,我优化了 LSTM 层的数量,以及 Dense 层的数量。但现在我在考虑激活函数。请记住,我对 NN 很陌生……但我一直在阅读有关 ReLu 和 Leaky ReLu 的信息,而且我知道 LSTM 在内部使用 tanh 和 sigmoid。所以首先我想可能是内部的 tanh 被 ReLu 函数切换了,但我想我错了,对吧?
我所看到的是 nn.ReLu() 被应用在层之间,所以我认为只有在我的密集层之间应用它才有意义?
对不起菜鸟问题。我很难理解这些东西,因为它们太基础了,以至于无处讨论。