我正在阅读萨顿和巴托,并想确保我清楚。
对于 Off Policy 学习,我们是否可以将处于特定地形(例如在沙滩上)的机器人视为目标策略,但使用机器人在雪地中行走的策略作为行为策略?我们是在用我们在雪地上行走的经验来逼近在沙地上行走的最优策略吗?
我正在阅读萨顿和巴托,并想确保我清楚。
对于 Off Policy 学习,我们是否可以将处于特定地形(例如在沙滩上)的机器人视为目标策略,但使用机器人在雪地中行走的策略作为行为策略?我们是在用我们在雪地上行走的经验来逼近在沙地上行走的最优策略吗?