我想我搞砸了。
我一直认为:
- 1-step TD on-policy = Sarsa
- 1-step TD off-policy = Q-learning
因此我得出结论: - n-step TD on-policy = n-step Sarsa
- n-step TD off-policy = n-step Q-learning
然而,在 Sutton 的书中,他从未介绍过 n-step Q-Learning,但他确实介绍了 n-step off-policy Sarsa。现在我感到很困惑。
有人可以帮我命名吗?
链接到 Sutton 的书(Off-Policy n-step Sarsa,第 149 页)