Barto 和 Sutton 的《强化学习简介》一书提到了以下关于非平稳 RL 问题的内容 -
“我们经常遇到实际上是非平稳的强化学习问题。在这种情况下,将最近的奖励比过去的奖励更重要是有意义的。”(见这里 - https://webdocs.cs.ualberta.ca/~sutton /book/ebook/node20.html)
我对此并不完全相信。例如,任务是为迷宫寻找出口的探索者代理实际上可能会因为在遥远的过去做出错误的选择而失败。
您能否简单解释一下为什么将最近的奖励权重更高是有意义的?