5

我想我搞砸了。

我一直认为:
- 1-step TD on-policy = Sarsa
- 1-step TD off-policy = Q-learning

因此我得出结论: - n-step TD on-policy = n-step Sarsa
- n-step TD off-policy = n-step Q-learning

然而,在 Sutton 的书中,他从未介绍过 n-step Q-Learning,但他确实介绍了 n-step off-policy Sarsa。现在我感到很困惑。

有人可以帮我命名吗?

链接到 Sutton 的书(Off-Policy n-step Sarsa,第 149 页)

4

1 回答 1

8

我一直认为:

  • 1-step TD on-policy = Sarsa
  • 1-step TD off-policy = Q-learning

这大部分是正确的,但不是完整的故事。Q-learning是off-policy 1-step temporal-difference learning的一个版本,但不仅如此;它专门为当前估计的贪婪策略更新 Q 值。Off-policy value learning 可以更通用,它可以是关于任何目标策略的学习;Q-learning 更具体,它专门关于将贪婪策略作为目标策略。

将 Q-learning 简单地扩展到n步骤将不再是正确的,因为这不适用于非策略算法(如 Q-learning)。您必须以某种方式纠正“偏离政策”;一种方法是重要性抽样。当您以更一般的方式(对于任何可能的目标策略)介绍它时,您会在您提到的那个页面上获得算法,他们在那里将其称为 Off-policy n-step Sarsa。我想这个算法的一个特定实例,目标策略pi是关于 的贪心策略Q,可以直观地理解为n-step Q-learning 的“正确”版本。

于 2018-04-13T18:34:42.687 回答