0

我们都知道,当我们使用带有 sigmoid 的深度神经网络时会出现梯度消失问题,如果我们使用 relu,它可以解决这个问题,但它会产生死神经元问题,然后它会通过泄漏 relu 来解决。如果 RNN 中存在梯度消失问题,为什么我们会转向 LSTM。为什么我们不能只使用 relu 来解决它。

4

1 回答 1

0

不仅仅是消失的梯度,RNN 也发现自己也存在梯度爆炸的问题(因为输出不断地再次作为输入得到反馈,从而导致梯度的指数膨胀或收缩)。

你说得对,leaky relu 可能是梯度消失问题的解决方案,但是 ReLU 和 Leaky ReLU 会出现梯度爆炸(梯度爆炸)的问题,这在前馈神经网络中并不普遍。因为如果你看到一个非常深的前馈神经网络的深度,它与 RNN 的深度相比仍然非常小(几乎没有),RNN 本质上非常深,因此会出现梯度爆炸的问题。这就是我们避免使用 ReLU 并使用 Tanh 激活的原因,如果您可能会问为什么不使用 sigmoid?因为(如果您查看 sigmoid 和 Tanh 的梯度图),双曲正切比 sigmoid 具有更好的梯度:

σ′(x)=σ(x)(1−σ(x))≤0.25

tanh′(x)=sech2(x)=2exp(x)+exp(-x))≤1.0

尽管如此,您的直觉是正确的,即带有 RNN 的 ReLU 可能是那些花哨的 LSTM 和 GRU 的竞争者,但是,我相信许多研究人员尝试过这种组合,但需要付出太多努力(仔细的权重初始化,谨慎处理学习率) '不值得,而且对 LSTM/GRU 没有任何好处。

于 2021-01-18T08:16:25.297 回答