为什么 Acme 对 tanh 和 ELU 都使用自己的初始化程序,而常用的 tanh 是 Xavier 而 ELU 是 He 初始化程序?他们背后的数学是什么?
代码:https ://github.com/deepmind/acme/blob/master/acme/tf/networks/continuous.py
uniform_initializer = tf.initializers.VarianceScaling(
distribution='uniform', mode='fan_out', scale=0.333)
谢谢。