3

正如许多论文指出的那样,为了获得更好的 NN 学习曲线,最好以值与高斯曲线匹配的方式对数据集进行归一化。

这是否仅在我们使用 sigmoid 函数作为压缩函数时才适用?如果不是什么偏差最适合 tanh 挤压功能?

4

1 回答 1

2

这是否仅在我们使用 sigmoid 函数作为压缩函数时才适用?

不,激活分布显然取决于激活函数,这就是为什么特别是基于 sigmoid 和 relu 的神经网络的初始化技术不同的原因。在这个问题中查看 Xavier 和 He 初始化之间的区别。输入分布也是如此。

如果不是什么划分最适合 tanh 挤压功能?

但是tanh是缩放和移位的sigmoid

tanh(x) = 2⋅sigmoid(2x) - 1

因此,如果激活对于 sigmoid 激活是正态分布的,那么它们对于 tanh 仍然是正态分布的。仅具有缩放的标准偏差和移动的平均值。所以相同的输入分布适用于 tanh。如果您希望获得相同的高斯方差,您可以将输入缩放sqrt(2),但实际上并没有那么重要。

于 2018-01-26T14:37:01.550 回答