reinforcement-learning - 马尔可夫决策过程中的建模动作使用限制

Question

我有一个带有一定数量状态和动作的马尔可夫决策过程。我想在我的模型中加入一个动作，它只能在任何状态下使用一次，并且在使用时不能再次使用。如何在我的状态图中建模此操作？我想有一个单独的状态并使用 -inf 来获得奖励，但这些似乎都没有奏效。谢谢！

score 0 · Accepted Answer

为了满足马尔可夫属性，您必须包含此操作是否先前在每个状态中使用过的信息，没有其他方法可以绕过它。这将使您的状态空间更大，但随后您的状态图将按您的预期工作。

假设您有三个状态：S = {1,2,3} 和两个动作 A={1,2}，其中每个动作在每个状态中只能使用一次。然后您现在将拥有状态 S = {(1,p1,p2), (2,p1,p2), (3,p1,p2)}，其中 p1 是一个布尔值，是否先前在此状态下使用过动作 1 并且p2 是一个布尔值，它告诉操作 2 之前是否曾在此状态下使用过。这意味着您现在总共将有 12 个状态：S={(1,0,0), (1,1,0), (1,0,1), (1,1,1), (2, 0,0), (2,1,0), (2,0,1), (2,1,1), (3,0,0), (3,1,0), (3,0, 1), (3,1,1)}

reinforcement-learning - 马尔可夫决策过程中的建模动作使用限制

1 回答 1

Related

Reference