4

我目前正在阅读萨顿的Reinforcement Learning: An introduction书。阅读第 6.1 章后,我想TD(0)为此设置实现 RL 算法:

在此处输入图像描述 在此处输入图像描述

为此,我尝试实现此处提供的伪代码: 在此处输入图像描述

这样做我想知道如何执行此步骤A <- action given by π for S:我可以A为当前状态选择最佳操作S吗?由于价值函数V(S)仅取决于状态而不是我不知道的动作,因此如何做到这一点。

我发现这个问题(我从哪里得到图像)处理相同的练习 - 但这里的动作只是随机选择的,而不是由动作策略选择的π

编辑:或者这是伪代码不完整,所以我也必须以action-value function Q(s, a)另一种方式近似?

4

1 回答 1

5

你是对的,你不能π只从价值函数中选择一个动作(既不派生策略),V(s)因为正如你所注意到的,它只取决于状态s

您可能在这里遗漏的关键概念是 TD(0) 学习是一种计算给定策略的价值函数的算法。因此,您假设您的代理遵循已知策略。在随机游走问题的情况下,策略包括随机选择动作。

如果你想能够学习一个策略,你需要估计动作价值函数Q(s,a)。有几种Q(s,a)基于时差学习的学习方法,例如 SARSA 和 Q-learning。

在 Sutton 的 RL 书中,作者区分了两种问题:预测问题和控制问题。前者指的是估计给定策略的价值函数的过程,后者指的是估计策略(通常通过动作价值函数)。您可以在第 6 章的开头部分找到对这些概念的参考:

像往常一样,我们首先关注策略评估或预测问题,即估计给定策略的价值函数。对于控制问题(寻找最优策略),DP、TD 和 Monte Carlo 方法都使用了广义策略迭代 (GPI) 的一些变体。方法的差异主要是它们对预测问题的方法的差异。

于 2017-07-21T07:48:32.057 回答