prelu 权重的解释是什么,如果一层中 prelu 的权重接近 1,而在其他一些层中,它们接近 0?
没有太多的前卢文献,任何帮助都会非常有帮助!
prelu 权重的解释是什么,如果一层中 prelu 的权重接近 1,而在其他一些层中,它们接近 0?
没有太多的前卢文献,任何帮助都会非常有帮助!
PRelu 公式是这样的:
如您所见,如果a
学习到大约为 0,则f(x)
几乎等于普通的 relu,并且来自负激活的梯度不会改变网络。简而言之,网络“不想”在任何方向调整不活动的神经元。实际上,这也意味着您可能可以通过在这一层使用 relu 来加快训练速度。这种非线性也很重要。
相反,当a
大约为 1 时,f(x)
几乎是x
,即好像没有非线性。这意味着该层可能是多余的,并且网络有足够的自由度来制定决策边界,而无需它。