0

当谈到 sigmoid 时,由于 0~1 的大量乘法,第一个边很少更新。我知道它被称为消失梯度。

但是为什么对 Relu 来说不是问题呢?我认为第一个边缘relu也很少更新。

既然derivativerelu0 或 1,那么它的很多乘法不是收敛到 0 吗?

4

1 回答 1

1

本文对此问题进行了有趣的讨论:http: //proceedings.mlr.press/v15/glorot11a/glorot11a.pdf

特别是,请查看第 318 页上的“潜在问题”部分。这似乎正是因为导数为 0 或 1,但绝不只是“接近”零(如在 sigmoid 情况下)导致稀疏表示事实证明这有助于培训。

于 2019-12-03T13:46:29.170 回答