正如许多论文指出的那样,为了获得更好的 NN 学习曲线,最好以值与高斯曲线匹配的方式对数据集进行归一化。
这是否仅在我们使用 sigmoid 函数作为压缩函数时才适用?如果不是什么偏差最适合 tanh 挤压功能?
正如许多论文指出的那样,为了获得更好的 NN 学习曲线,最好以值与高斯曲线匹配的方式对数据集进行归一化。
这是否仅在我们使用 sigmoid 函数作为压缩函数时才适用?如果不是什么偏差最适合 tanh 挤压功能?
这是否仅在我们使用 sigmoid 函数作为压缩函数时才适用?
不,激活分布显然取决于激活函数,这就是为什么特别是基于 sigmoid 和 relu 的神经网络的初始化技术不同的原因。在这个问题中查看 Xavier 和 He 初始化之间的区别。输入分布也是如此。
如果不是什么划分最适合 tanh 挤压功能?
但是tanh
是缩放和移位的sigmoid
:
tanh(x) = 2⋅sigmoid(2x) - 1
因此,如果激活对于 sigmoid 激活是正态分布的,那么它们对于 tanh 仍然是正态分布的。仅具有缩放的标准偏差和移动的平均值。所以相同的输入分布适用于 tanh。如果您希望获得相同的高斯方差,您可以将输入缩放sqrt(2)
,但实际上并没有那么重要。