0

我正在学习http://neuralnetworksanddeeplearning.com/chap3.html

它说交叉熵成本函数可以加速网络,因为 δ ' (z) 在最后一层取消了。

最后一层 L 的偏导数:

∂(C)/∂(w) = a L-1 (a L -y)。

没有δ ' (z)。

但是我想知道交叉熵是否加速了隐藏层,所以我计算了 L-1 层的偏导数:

∂(C)/∂(w)

= (a L -y) * w L * a L-1 (1-a L-1 ) * a L-2

= (a L -y) * w L * δ'(z L-1 ) * a L-2

似乎它在 L-1 层上没有加速,因为 δ'(x) 仍然存在。我可以接近于零,使偏导接近于零,使学习缓慢。

有人可以告诉我我提出的错误观点吗?谢谢。

4

0 回答 0