我正在研究卷积神经网络。我对 CNN 中的某些层感到困惑。
关于ReLu...我只知道它是无限逻辑函数的总和,但是ReLu没有连接到任何上层。为什么我们需要 ReLu,它是如何工作的?
关于辍学......辍学是如何工作的?我听了 G. Hinton 的视频演讲。他说有一种策略,在训练权重时随机忽略一半节点,在预测时将权重减半。他说它的灵感来自随机森林,其工作原理与计算这些随机训练模型的几何平均值完全相同。
这个策略和dropout一样吗?
有人可以帮我解决这个问题吗?
我正在研究卷积神经网络。我对 CNN 中的某些层感到困惑。
关于ReLu...我只知道它是无限逻辑函数的总和,但是ReLu没有连接到任何上层。为什么我们需要 ReLu,它是如何工作的?
关于辍学......辍学是如何工作的?我听了 G. Hinton 的视频演讲。他说有一种策略,在训练权重时随机忽略一半节点,在预测时将权重减半。他说它的灵感来自随机森林,其工作原理与计算这些随机训练模型的几何平均值完全相同。
这个策略和dropout一样吗?
有人可以帮我解决这个问题吗?
ReLu: 整流函数是一个激活函数 f(x) = Max(0, x),神经元可以像任何其他激活函数一样使用它,使用整流函数激活函数的节点称为 ReLu 节点。使用它的主要原因是因为与更传统的激活函数(如 sigmoid 和双曲正切)相比,它的计算效率更高,而不会对泛化精度产生显着影响。使用整流器激活函数而不是线性激活函数来为网络添加非线性,否则网络将永远只能计算线性函数。
Dropout: 是的,所描述的技术与 dropout 相同。随机忽略节点有用的原因是因为它可以防止节点之间出现相互依赖关系(即节点不学习依赖来自另一个节点的输入值的函数),这允许网络学习更多更健壮的关系。实施 dropout 与从网络委员会获取平均值的影响大致相同,但是在所需的时间和存储方面的成本要低得多。