我了解偏置节点在神经网络中的作用,以及为什么它对于转移小型网络中的激活函数很重要。我的问题是:偏差在非常大的网络中仍然很重要(更具体地说,是使用 ReLu 激活函数、3 个卷积层、2 个隐藏层和超过 100,000 个连接进行图像识别的卷积神经网络),还是它的影响得到被大量的激活所迷惑?
我问的原因是因为过去我已经构建了网络,但我忘记了实现偏置节点,但是在添加一个后发现性能差异可以忽略不计。这可能是偶然的,因为特定的数据集不需要偏差吗?我是否需要在大型网络中使用更大的值初始化偏差?任何其他建议将不胜感激。