2

Barto 和 Sutton 的《强化学习简介》一书提到了以下关于非平稳 RL 问题的内容 -

“我们经常遇到实际上是非平稳的强化学习问题。在这种情况下,将最近的奖励比过去的奖励更重要是有意义的。”(见这里 - https://webdocs.cs.ualberta.ca/~sutton /book/ebook/node20.html
我对此并不完全相信。例如,任务是为迷宫寻找出口的探索者代理实际上可能会因为在遥远的过去做出错误的选择而失败。
您能否简单解释一下为什么将最近的奖励权重更高是有意义的?

4

2 回答 2

4

如果问题是非固定的,那么过去的经验就会越来越过时,应该给予较低的权重。这样,如果一个探险者在遥远的过去犯了一个错误,这个错误就会被最近的经验所覆盖。

于 2016-05-08T13:03:07.817 回答
3

文本明确提到了非平稳问题。在此类问题中,MDP 特性会发生变化。例如,环境可能会发生变化,因此转移矩阵或奖励函数可能会有所不同。在这种情况下,过去收集的奖励可能不再重要。

在您的示例中,MDP 是固定的,因为迷宫永远不会改变,所以您的陈述是正确的。如果(例如)迷宫的出口会根据某种规律(你不知道)发生变化,那么更多地权衡最近的奖励是有意义的(例如,如果奖励是从代理位置到出口)。

一般来说,处理非平稳的 MDP 是非常复杂的,因为通常你不知道特征是如何变化的(在上面的例子中,你不知道出口位置是如何变化的)。相反,如果您知道决定环境如何变化的规律,则应该将其包含在 MDP 模型中。

于 2016-05-08T13:06:14.857 回答