我正在尝试使用 CNN 对图像进行分类,据我所知,ReLu 是每个卷积层中激活单元的流行选择。根据我的理解,ReLU 会保留所有正图像强度并将负图像强度转换为 0。对我来说,这就像处理步骤,根本不是真正的“触发”步骤。那么在这里使用 ReLU 的目的是什么?
问问题
763 次
1 回答
1
首先,它引入了非线性。没有它,整个 CNN 将只不过是一系列矩阵乘法和最大池化(因此您将无法近似和学习复杂的函数)。但我想你是在问为什么 ReLU 特别受欢迎。想到的一个原因是其他激活函数(如tanh
sigmoid 或 sigmoid)存在梯度饱和问题。这意味着一旦他们输出的值接近最大值,他们的梯度就变得微不足道(只需看看他们的图表,例如在维基百科上) 并且它们会在反向传播时杀死梯度。ReLU 没有这个问题。此外,ReLU 为负值生成零这一事实意味着网络生成的中间表示往往更稀疏。
于 2017-11-18T20:46:33.023 回答