0

使用更新规则 w_i=w_i + n(y-\hat{y})x 可以轻松完成学习感知器。

到目前为止我阅读的所有资源都说学习率 n 可以设置为 1 wlg

我的问题如下,鉴于数据是线性可分的,是否有任何证据表明收敛速度始终相同?这不应该也取决于初始 w 向量吗?

4

1 回答 1

0

引用维基百科

感知器的决策边界对于权重向量的缩放是不变的;也就是说,使用初始权重向量 \mathbf{w} 和学习率 \alpha \ 训练的感知器与使用初始权重向量 \mathbf{w}/\alpha \ 和学习率 1 训练的感知器的行为相同。因此,由于初始权重随着迭代次数的增加变得无关紧要,学习率在感知器的情况下并不重要,通常只设置为 1。

于 2014-05-16T21:54:05.490 回答