neural-network - 为什么在卷积神经网络中使用 ReLU 作为激活单元？

Question

我正在尝试使用 CNN 对图像进行分类，据我所知，ReLu 是每个卷积层中激活单元的流行选择。根据我的理解，ReLU 会保留所有正图像强度并将负图像强度转换为 0。对我来说，这就像处理步骤，根本不是真正的“触发”步骤。那么在这里使用 ReLU 的目的是什么？

score 1 · Accepted Answer

首先，它引入了非线性。没有它，整个 CNN 将只不过是一系列矩阵乘法和最大池化（因此您将无法近似和学习复杂的函数）。但我想你是在问为什么 ReLU 特别受欢迎。想到的一个原因是其他激活函数（如tanhsigmoid 或 sigmoid）存在梯度饱和问题。这意味着一旦他们输出的值接近最大值，他们的梯度就变得微不足道（只需看看他们的图表，例如在维基百科上) 并且它们会在反向传播时杀死梯度。ReLU 没有这个问题。此外，ReLU 为负值生成零这一事实意味着网络生成的中间表示往往更稀疏。

neural-network - 为什么在卷积神经网络中使用 ReLU 作为激活单元？

1 回答 1

Related

Reference