我正在学习http://neuralnetworksanddeeplearning.com/chap3.html。
它说交叉熵成本函数可以加速网络,因为 δ ' (z) 在最后一层取消了。
最后一层 L 的偏导数:
∂(C)/∂(w) = a L-1 (a L -y)。
没有δ ' (z)。
但是我想知道交叉熵是否加速了隐藏层,所以我计算了 L-1 层的偏导数:
∂(C)/∂(w)
= (a L -y) * w L * a L-1 (1-a L-1 ) * a L-2
= (a L -y) * w L * δ'(z L-1 ) * a L-2
似乎它在 L-1 层上没有加速,因为 δ'(x) 仍然存在。我可以接近于零,使偏导接近于零,使学习缓慢。
有人可以告诉我我提出的错误观点吗?谢谢。