3

我正在参加强化学习课程,但我不明白如何将策略迭代/价值迭代的概念与蒙特卡洛(以及 TD/SARSA/Q 学习)结合起来。在下表中,如何填充空单元格:应该/可以是二进制是/否,一些字符串描述还是更复杂?

在此处输入图像描述

4

1 回答 1

2

价值迭代和策略迭代是寻找最优策略的基于模型的方法。他们试图构建环境的马尔可夫决策过程(MDP)。强化学习背后的主要前提是您不需要环境的 MDP 来找到最优策略,并且传统上不考虑值迭代和策略迭代(尽管理解它们是 RL 概念的关键)。价值迭代和策略迭代是“间接”学习的,因为它们形成了环境模型,然后可以从该模型中提取最优策略。

“直接”学习方法不尝试构建环境模型。他们可能会在策略空间中寻找最优策略或利用基于价值函数(也称为“基于价值”)的学习方法。这些天您将了解的大多数方法往往是基于价值函数的。

在基于价值函数的方法中,有两种主要类型的强化学习方法:

  • 基于策略迭代的方法
  • 基于值迭代的方法

你的作业是询问你,对于这些 RL 方法中的每一个,它们是基于策略迭代还是价值迭代。

提示:这五种强化学习方法中的一种与其他方法不同。

于 2018-05-10T14:41:34.073 回答