1

我知道当满足马尔科夫属性时,下一个状态只与当前状态有关。但是在马尔可夫决策过程(MDP)中,我们需要选择一个动作并执行它来进行转换。这是否意味着状态转换与所选操作有关,而不仅仅是与状态有关?这种情况是否违反了马尔可夫的财产?

大多数强化学习是基于MDP的。如果在MDP中,我们认为选择的动作是马尔可夫性质的一个因素,那么在AlphaGo中,下一个状态不仅与当前状态和选择的动作有关,它还受到对手动作的影响。围棋满足马尔可夫性质吗?强化学习算法不需要环境完全满足马尔可夫性质吗?非常混乱。

如果在围棋游戏中,我们仍然认为状态转换与当前状态有关,那么没有问题。

围棋游戏满足马尔可夫性质吗?MDP中选择的动作是否是过渡之间的影响因素?RL 算法(基于 MDP,而不是 POMDP)是否不需要环境完全满足马尔可夫属性?

4

1 回答 1

1

这不是具有马尔可夫属性的算法。Markov 属性是问题设置的属性,它取决于您使用的状态。

但是,是的,在 MDP 中,状态转换不仅取决于当前状态,还取决于控制器采取的行动。但它不依赖于任何早期的状态。这就是马尔可夫属性。

一旦你处于一个给定的状态,你如何到达那里并不重要。当前状态包含做出预测或决策所需的所有信息。这大大简化了决策算法,因为它不需要任何内存。

要使 MDP 对对手有意义,您必须将对手视为环境的一部分。对手做出确定性(甚至随机)的选择,但这些选择仅基于当前的棋盘状态。

严格来说,在围棋中,您还需要避免重复先前的棋盘位置。所以如果你使用当前的棋盘位置作为你的状态,就违反了马尔可夫属性:你可以通过查看过去的棋盘位置来获得额外的相关知识。

于 2019-05-11T07:02:26.040 回答