reinforcement-learning - TD(0)学习中如何选择动作

Question

我目前正在阅读萨顿的Reinforcement Learning: An introduction书。阅读第 6.1 章后，我想TD(0)为此设置实现 RL 算法：

为此，我尝试实现此处提供的伪代码：

这样做我想知道如何执行此步骤A <- action given by π for S：我可以A为当前状态选择最佳操作S吗？由于价值函数V(S)仅取决于状态而不是我不知道的动作，因此如何做到这一点。

我发现这个问题（我从哪里得到图像）处理相同的练习 - 但这里的动作只是随机选择的，而不是由动作策略选择的π。

编辑：或者这是伪代码不完整，所以我也必须以action-value function Q(s, a)另一种方式近似？

score 5 · Accepted Answer

你是对的，你不能π只从价值函数中选择一个动作（既不派生策略），V(s)因为正如你所注意到的，它只取决于状态s。

您可能在这里遗漏的关键概念是 TD(0) 学习是一种计算给定策略的价值函数的算法。因此，您假设您的代理遵循已知策略。在随机游走问题的情况下，策略包括随机选择动作。

如果你想能够学习一个策略，你需要估计动作价值函数Q(s,a)。有几种Q(s,a)基于时差学习的学习方法，例如 SARSA 和 Q-learning。

在 Sutton 的 RL 书中，作者区分了两种问题：预测问题和控制问题。前者指的是估计给定策略的价值函数的过程，后者指的是估计策略（通常通过动作价值函数）。您可以在第 6 章的开头部分找到对这些概念的参考：

像往常一样，我们首先关注策略评估或预测问题，即估计给定策略的价值函数。对于控制问题（寻找最优策略），DP、TD 和 Monte Carlo 方法都使用了广义策略迭代 (GPI) 的一些变体。方法的差异主要是它们对预测问题的方法的差异。

1 回答 1