我有一些问题要弄清楚为什么你需要从书中的 λ-return 算法的在线版本中重新审视每个地平线上的情节中的所有时间步骤:
Reinforcement Learning: An Introduction, 2nd Edition, Chapter 12, Sutton & Barto
这里所有的权重向量序列 W1, W2,..., Wh 对于每个地平线 h 都从 W0 开始(上一集结束时的权重)。然而,它们似乎并不依赖于前一阶段的回报/权重,并且可以独立计算。在我看来,这只是为了澄清起见,您只能在剧集结束时计算最终水平 h=T 的值。这将与算法的离线版本所做的相同,实际的更新规则是:
毫不奇怪,我在 19-states Random Walk 示例中得到了两种算法完全相同的结果:
书中提到,在线版本的性能应该稍好一些,在这种情况下,它应该具有与 True Online TD(λ) 相同的结果。在实施后者时,它确实优于离线版本,但我无法弄清楚简单而缓慢的在线版本。
任何建议将不胜感激。
谢谢