我知道当满足马尔科夫属性时,下一个状态只与当前状态有关。但是在马尔可夫决策过程(MDP)中,我们需要选择一个动作并执行它来进行转换。这是否意味着状态转换与所选操作有关,而不仅仅是与状态有关?这种情况是否违反了马尔可夫的财产?
大多数强化学习是基于MDP的。如果在MDP中,我们认为选择的动作是马尔可夫性质的一个因素,那么在AlphaGo中,下一个状态不仅与当前状态和选择的动作有关,它还受到对手动作的影响。围棋满足马尔可夫性质吗?强化学习算法不需要环境完全满足马尔可夫性质吗?非常混乱。
如果在围棋游戏中,我们仍然认为状态转换与当前状态有关,那么没有问题。
围棋游戏满足马尔可夫性质吗?MDP中选择的动作是否是过渡之间的影响因素?RL 算法(基于 MDP,而不是 POMDP)是否不需要环境完全满足马尔可夫属性?