reinforcement-learning - 为什么 Sutton 的 RL 书中没有 n-step Q-learning 算法？

Question

我想我搞砸了。

我一直认为：
- 1-step TD on-policy = Sarsa
- 1-step TD off-policy = Q-learning

因此我得出结论： - n-step TD on-policy = n-step Sarsa
- n-step TD off-policy = n-step Q-learning

然而，在 Sutton 的书中，他从未介绍过 n-step Q-Learning，但他确实介绍了 n-step off-policy Sarsa。现在我感到很困惑。

有人可以帮我命名吗？

链接到 Sutton 的书（Off-Policy n-step Sarsa，第 149 页）

score 8 · Accepted Answer

我一直认为：

1-step TD on-policy = Sarsa

1-step TD off-policy = Q-learning

这大部分是正确的，但不是完整的故事。Q-learning是off-policy 1-step temporal-difference learning的一个版本，但不仅如此；它专门为当前估计的贪婪策略更新 Q 值。Off-policy value learning 可以更通用，它可以是关于任何目标策略的学习；Q-learning 更具体，它专门关于将贪婪策略作为目标策略。

将 Q-learning 简单地扩展到n步骤将不再是正确的，因为这不适用于非策略算法（如 Q-learning）。您必须以某种方式纠正“偏离政策”；一种方法是重要性抽样。当您以更一般的方式（对于任何可能的目标策略）介绍它时，您会在您提到的那个页面上获得算法，他们在那里将其称为 Off-policy n-step Sarsa。我想这个算法的一个特定实例，目标策略pi是关于的贪心策略Q，可以直观地理解为n-step Q-learning 的“正确”版本。

reinforcement-learning - 为什么 Sutton 的 RL 书中没有 n-step Q-learning 算法？

1 回答 1

Related

Reference