我对神经网络梯度下降背后的理论几乎没有疑问。
第一个问题:假设我们对 5 个特征中的每一个有 5 个权重。现在我们要计算梯度。算法内部是如何做到的?它是否采用第一个权重(=W1)并尝试稍微增加它(或减少它),当它完成后,转到第二个权重?还是通过同时改变超过 1 个权重来以不同的方式更有效地做到这一点?
第二个问题:如果特征 1 比特征 2 重要得多,那么与 W2 相比,W1 的相同变化(以 % 为单位)对损失的影响更大,每个权重具有不同的学习率不是更好吗?如果我们只有一个学习率,我们只考虑最有影响的权重来设置它,对吧?