reinforcement-learning - 如何防止 lambda = 1 的 SARSA 中的资格跟踪因状态-动作对被大量访问而爆炸？

Question

我在 Windy Grid World 中使用 lambda = 1 测试 SARSA，如果探索导致在达到目标之前多次访问相同的状态-动作对，则资格跟踪每次都会增加而没有任何衰减，因此它会爆炸并导致一切溢出。如何避免这种情况？

score 0 · Accepted Answer

如果我正确理解了您的问题，那么问题是给定状态的跟踪增加了太多。在这种情况下，一个潜在的解决方案是使用替换跟踪而不是经典的增量跟踪。

替换跟踪的想法是每次访问状态时将跟踪重置为一个值（通常为 1）。下图说明了两种走线的主要区别：

您可以在经典的 Sutton & Barto 书籍《强化学习：简介》中找到更多信息，特别是在第 7.8 节中。

1 回答 1