在满足某些条件后改变学习率是否值得?以及如何以及为什么要这样做?例如,网络将以高学习率开始,在平方误差足够低后,学习率会下降以获得更好的精度,或者学习率应该增加以跳出局部最小值?不会造成过拟合吗?那么动量呢?
问问题
5515 次
在满足某些条件后改变学习率是否值得?以及如何以及为什么要这样做?例如,网络将以高学习率开始,在平方误差足够低后,学习率会下降以获得更好的精度,或者学习率应该增加以跳出局部最小值?不会造成过拟合吗?那么动量呢?