我通过在线资源(即 coursera 的机器学习)学习了梯度下降。然而,提供的信息只是说重复梯度下降直到它收敛。
他们对收敛的定义是使用成本函数相对于迭代次数的图表,并观察图表何时变平。因此,我假设我会执行以下操作:
if (change_in_costfunction > precisionvalue) {
repeat gradient_descent
}
或者,我想知道确定收敛的另一种方法是否是观察系数接近它的真实值:
if (change_in_coefficient_j > precisionvalue) {
repeat gradient_descent_for_j
}
...repeat for all coefficients
那么收敛是基于成本函数还是系数?以及我们如何确定精度值?它应该是系数的百分比还是总成本函数?