reinforcement-learning - 马尔科夫决策过程的状态转移与动作有关吗？

Question

我知道当满足马尔科夫属性时，下一个状态只与当前状态有关。但是在马尔可夫决策过程（MDP）中，我们需要选择一个动作并执行它来进行转换。这是否意味着状态转换与所选操作有关，而不仅仅是与状态有关？这种情况是否违反了马尔可夫的财产？

大多数强化学习是基于MDP的。如果在MDP中，我们认为选择的动作是马尔可夫性质的一个因素，那么在AlphaGo中，下一个状态不仅与当前状态和选择的动作有关，它还受到对手动作的影响。围棋满足马尔可夫性质吗？强化学习算法不需要环境完全满足马尔可夫性质吗？非常混乱。

如果在围棋游戏中，我们仍然认为状态转换与当前状态有关，那么没有问题。

围棋游戏满足马尔可夫性质吗？MDP中选择的动作是否是过渡之间的影响因素？RL 算法（基于 MDP，而不是 POMDP）是否不需要环境完全满足马尔可夫属性？

score 1 · Accepted Answer

这不是具有马尔可夫属性的算法。Markov 属性是问题设置的属性，它取决于您使用的状态。

但是，是的，在 MDP 中，状态转换不仅取决于当前状态，还取决于控制器采取的行动。但它不依赖于任何早期的状态。这就是马尔可夫属性。

一旦你处于一个给定的状态，你如何到达那里并不重要。当前状态包含做出预测或决策所需的所有信息。这大大简化了决策算法，因为它不需要任何内存。

要使 MDP 对对手有意义，您必须将对手视为环境的一部分。对手做出确定性（甚至随机）的选择，但这些选择仅基于当前的棋盘状态。

严格来说，在围棋中，您还需要避免重复先前的棋盘位置。所以如果你使用当前的棋盘位置作为你的状态，就违反了马尔可夫属性：你可以通过查看过去的棋盘位置来获得额外的相关知识。

1 回答 1