python - 使用正确的 ReLU 导数会阻止学习

Question

我正在尝试使用 ReLU 作为激活函数来实现反向传播。如果我没记错的话，该函数的导数对于 x > 0 是 1，对于 x < 0 是 0。使用这个导数，网络根本不会学习。搜索其他示例，我发现大多数人忽略了 1 for X > 0 部分，只是将其保留在 x 处，这会产生更好的结果。我想知道为什么会这样。

为了确保我没有其他错误，这里是训练 1 输入，1 输出没有隐藏神经元网络的代码。我使用均方误差作为误差函数

import random

x = random.uniform(0, 1)
y = random.uniform(0, 1)
w = random.uniform(0, 1)
lr = 0.1

for i in range(500):
    z = x * w
    yP = z
    if yP < 0:
        yP = 0
    loss = (yP - y)**2
    print(i, loss)

    grad_y=2.0*(yP - y)
    grad_z = grad_y
    if z < 0:
        grad_z = 0
    else :
        grad_z = grad_y
    grad_w = grad_z * x
    w -= lr * grad_w

请注意，这不太可能与网络的大小有关，我还在一个具有 1000 个输入神经元、1 个隐藏层、100 个神经元和 10 个输出神经元的网络上进行了测试。我使用了 64 和 500 个 epoch 的批量大小。它有同样的问题。

score 0 · Accepted Answer

我才意识到我犯了一个多么愚蠢的错误。根据链式法则，grad_y 应该乘以 ReLU 在 h 处的导数为 0 或 1。这当然等同于如果导数为 0，则将其设置为 0。

python - 使用正确的 ReLU 导数会阻止学习

1 回答 1

Related

Reference