6

学习率如何影响收敛速度和收敛本身的问题。如果学习率是恒定的,Q 函数会收敛到最优值还是学习率必须衰减以保证收敛?

4

3 回答 3

6

学习率告诉我们朝着解决方案迈出的步幅。

不应该是一个太大的数字,因为它可能会围绕最小值不断振荡,它不应该是一个太小的数字,否则将需要大量的时间和迭代才能达到最小值。

建议在学习率中使用衰减的原因是,最初当我们处于解决方案空间中的完全随机点时,我们需要朝着解决方案迈出一大步,然后当我们接近它时,我们会做出小的跳跃,从而对解决方案进行小的改进终于达到最小值。

可以类比为:在高尔夫比赛中,当球离球洞很远时,球手非常努力地击球以尽可能接近球洞。后来,当他到达标记区域时,他选择了不同的球杆来获得准确的短球。

所以不是他不选择短击球杆就无法将球入洞,他可能会在目标之前将球送出两到三倍。但如果他打得最好,并使用适量的力量到达洞口,那将是最好的。衰减学习率也是如此。

于 2017-07-11T11:48:59.793 回答
2

学习率必须衰减但不能太快。收敛的条件如下(对不起,没有乳胶):

  • 总和(阿尔法(t),1,inf)= inf

  • 总和(阿尔法(t)^2,1,inf)<inf

像 alpha = k/(k+t) 这样的东西可以很好地工作。

本文正是讨论这个话题:

http://www.jmlr.org/papers/volume5/evendar03a/evendar03a.pdf

于 2016-02-27T09:32:35.663 回答
0

它应该会衰减,否则会出现一些波动,从而引发政策的微小变化。

于 2016-01-28T13:02:59.207 回答