我在 Windy Grid World 中使用 lambda = 1 测试 SARSA,如果探索导致在达到目标之前多次访问相同的状态-动作对,则资格跟踪每次都会增加而没有任何衰减,因此它会爆炸并导致一切溢出。如何避免这种情况?
问问题
295 次
1 回答
0
如果我正确理解了您的问题,那么问题是给定状态的跟踪增加了太多。在这种情况下,一个潜在的解决方案是使用替换跟踪而不是经典的增量跟踪。
替换跟踪的想法是每次访问状态时将跟踪重置为一个值(通常为 1)。下图说明了两种走线的主要区别:
您可以在经典的 Sutton & Barto 书籍《强化学习:简介》中找到更多信息,特别是在第 7.8 节中。
于 2017-07-25T06:44:55.917 回答