0

为什么 Acme 对 tanh 和 ELU 都使用自己的初始化程序,而常用的 tanh 是 Xavier 而 ELU 是 He 初始化程序?他们背后的数学是什么?

代码:https ://github.com/deepmind/acme/blob/master/acme/tf/networks/continuous.py

uniform_initializer = tf.initializers.VarianceScaling(
    distribution='uniform', mode='fan_out', scale=0.333)

谢谢。

4

0 回答 0