我的数据集具有m
特征和n
数据点。设w
是一个向量(待估计)。我正在尝试使用随机更新方法实现梯度下降。我的最小化功能是least mean square
.
更新算法如下图所示:
for i = 1 ... n data:
for t = 1 ... m features:
w_t = w_t - alpha * (<w>.<x_i> - <y_i>) * x_t
其中<x>
是m
特征的原始向量,<y>
是真实标签的列向量,并且alpha
是常数。
我的问题:
现在根据wiki,我不需要遍历所有数据点,当错误足够小时我可以停止。这是真的吗?
我不明白这里的停止标准应该是什么。如果有人可以提供帮助,那就太好了。
使用这个公式 - 我使用过
for loop
- 是否正确?我相信(<w>.<x_i> - <y_i>) * x_t
是我的∆Q(w)
。