neural-network - sigmoid 和 tanh 的数据集值分布

Question

正如许多论文指出的那样，为了获得更好的 NN 学习曲线，最好以值与高斯曲线匹配的方式对数据集进行归一化。

这是否仅在我们使用 sigmoid 函数作为压缩函数时才适用？如果不是什么偏差最适合 tanh 挤压功能？

score 2 · Accepted Answer

这是否仅在我们使用 sigmoid 函数作为压缩函数时才适用？

不，激活分布显然取决于激活函数，这就是为什么特别是基于 sigmoid 和 relu 的神经网络的初始化技术不同的原因。在这个问题中查看 Xavier 和 He 初始化之间的区别。输入分布也是如此。

如果不是什么划分最适合 tanh 挤压功能？

但是tanh是缩放和移位的sigmoid：

tanh(x) = 2⋅sigmoid(2x) - 1

因此，如果激活对于 sigmoid 激活是正态分布的，那么它们对于 tanh 仍然是正态分布的。仅具有缩放的标准偏差和移动的平均值。所以相同的输入分布适用于 tanh。如果您希望获得相同的高斯方差，您可以将输入缩放sqrt(2)，但实际上并没有那么重要。

1 回答 1