1

我正在阅读萨顿和巴托,并想确保我清楚。

对于 Off Policy 学习,我们是否可以将处于特定地形(例如在沙滩上)的机器人视为目标策略,但使用机器人在雪地中行走的策略作为行为策略?我们是在用我们在雪地上行走的经验来逼近在沙地上行走的最优策略吗?

4

1 回答 1

2

您的示例有效,但我认为这有点限制。在非策略方法中,行为策略只是一个用于探索状态动作空间的函数,而另一个函数(如您所说的目标)正在被优化。这意味着只要行为函数定义在与目标策略相同的域上,它是随机过程还是先前学习的结果(例如你的机器人在沙地上行走)并不重要。它探索了状态-动作空间,因此它符合定义。做得好不好是另外一回事。

于 2020-05-26T15:10:17.657 回答