看着这段代码
for (i <- (L - 2) to (0, -1)) {
layerModels(i + 1).computePrevDelta(deltas(i + 1), outputs(i + 1), deltas(i))
}
我想了解为什么我们要通过outputs(i+1)
而不是outputs(i)
在上面的代码片段中。据我了解,这仅适用于具有导数的 sigmoid 激活层f'(x) = f(x) * (1-f(x)) = outputs(i) * (1-outputs(i))
这意味着为了找到 prevDelta 我们应该使用outputs(i)
.