我刚刚开始研究神经网络,我设法弄清楚如何推导出反向传播所需的方程。我花了将近 3 天的时间询问了我所有的教授,并在谷歌上搜索了我能找到的所有内容。我的数学技能确实很差,但我真的很想了解这个特殊的公式在数学上是如何有意义的。该公式用于在找到梯度后更新权重。
W1 = W0 - L * (dC/dw)
在哪里:
W1 = 新重量
W0 = 旧重量
L = 学习率
dC/dw = 误差函数的偏导数和代价函数的梯度向量的一个成员
到目前为止我所知道的:
- 梯度是它的偏导数的向量,最大增长率由梯度本身给出。每个偏导数给出了导数相对于方向的最大变化率。
- dC/dW 是这些偏导数之一。
- dC/dW 评估为变化率。它的标志可以告诉我们变化的方向。该值本身是成本变化与特定重量下重量变化之间的比例。
- 不知何故,将 dC/dW 乘以学习率只是将该速率的一小部分作为权重的变化。
我无法调和的:
- 学习率只是一个没有单位的标量。怎么可能只用一个标量乘以一个速率并最终得到一个可测量的重量变化?我在这里不明白什么?