0

在深度强化学习中,有没有办法将学习率衰减为累积奖励。我的意思是,当智能体能够学习并最大化奖励时,学习率会衰减?

4

1 回答 1

0

通过步数来修改学习率是很常见的,因此当然可以根据累积奖励来修改学习率。

一个风险是您在训练开始时不知道自己在寻求什么奖励,因此过早降低学习率是一个常见问题。如果你的目标是奖励 80,当你达到这个值时学习率急剧下降,你永远不会知道你的算法是否可以达到 90,因为学习将停止在 80。

另一个问题是目标定得太高。如果您将目标设置为 100,这意味着学习率不会随着您达到 85 而降低,那么不稳定性可能意味着算法无法很好地收敛到达到 90。

所以总的来说,我认为人们会尝试各种学习计划,如果可能的话,有时让算法运行足够的时间,看看它们是否收敛。

于 2020-06-20T15:33:23.230 回答