我正在参加强化学习课程,但我不明白如何将策略迭代/价值迭代的概念与蒙特卡洛(以及 TD/SARSA/Q 学习)结合起来。在下表中,如何填充空单元格:应该/可以是二进制是/否,一些字符串描述还是更复杂?
问问题
657 次
1 回答
2
价值迭代和策略迭代是寻找最优策略的基于模型的方法。他们试图构建环境的马尔可夫决策过程(MDP)。强化学习背后的主要前提是您不需要环境的 MDP 来找到最优策略,并且传统上不考虑值迭代和策略迭代(尽管理解它们是 RL 概念的关键)。价值迭代和策略迭代是“间接”学习的,因为它们形成了环境模型,然后可以从该模型中提取最优策略。
“直接”学习方法不尝试构建环境模型。他们可能会在策略空间中寻找最优策略或利用基于价值函数(也称为“基于价值”)的学习方法。这些天您将了解的大多数方法往往是基于价值函数的。
在基于价值函数的方法中,有两种主要类型的强化学习方法:
- 基于策略迭代的方法
- 基于值迭代的方法
你的作业是询问你,对于这些 RL 方法中的每一个,它们是基于策略迭代还是价值迭代。
提示:这五种强化学习方法中的一种与其他方法不同。
于 2018-05-10T14:41:34.073 回答