reinforcement-learning - 是蒙特卡洛学习策略还是价值迭代（或其他）？

Question

我正在参加强化学习课程，但我不明白如何将策略迭代/价值迭代的概念与蒙特卡洛（以及 TD/SARSA/Q 学习）结合起来。在下表中，如何填充空单元格：应该/可以是二进制是/否，一些字符串描述还是更复杂？

score 2 · Accepted Answer

价值迭代和策略迭代是寻找最优策略的基于模型的方法。他们试图构建环境的马尔可夫决策过程（MDP）。强化学习背后的主要前提是您不需要环境的 MDP 来找到最优策略，并且传统上不考虑值迭代和策略迭代（尽管理解它们是 RL 概念的关键）。价值迭代和策略迭代是“间接”学习的，因为它们形成了环境模型，然后可以从该模型中提取最优策略。

“直接”学习方法不尝试构建环境模型。他们可能会在策略空间中寻找最优策略或利用基于价值函数（也称为“基于价值”）的学习方法。这些天您将了解的大多数方法往往是基于价值函数的。

在基于价值函数的方法中，有两种主要类型的强化学习方法：

基于策略迭代的方法
基于值迭代的方法

你的作业是询问你，对于这些 RL 方法中的每一个，它们是基于策略迭代还是价值迭代。

提示：这五种强化学习方法中的一种与其他方法不同。

reinforcement-learning - 是蒙特卡洛学习策略还是价值迭代（或其他）？

1 回答 1

Related

Reference