1

我有一个带有一定数量状态和动作的马尔可夫决策过程。我想在我的模型中加入一个动作,它只能在任何状态下使用一次,并且在使用时不能再次使用。如何在我的状态图中建模此操作?我想有一个单独的状态并使用 -inf 来获得奖励,但这些似乎都没有奏效。谢谢!

4

1 回答 1

0

为了满足马尔可夫属性,您必须包含此操作是否先前在每个状态中使用过的信息,没有其他方法可以绕过它。这将使您的状态空间更大,但随后您的状态图将按您的预期工作。

假设您有三个状态:S = {1,2,3} 和两个动作 A={1,2},其中每个动作在每个状态中只能使用一次。然后您现在将拥有状态 S = {(1,p1,p2), (2,p1,p2), (3,p1,p2)},其中 p1 是一个布尔值,是否先前在此状态下使用过动作 1 并且p2 是一个布尔值,它告诉操作 2 之前是否曾在此状态下使用过。这意味着您现在总共将有 12 个状态:S={(1,0,0), (1,1,0), (1,0,1), (1,1,1), (2, 0,0), (2,1,0), (2,0,1), (2,1,1), (3,0,0), (3,1,0), (3,0, 1), (3,1,1)}

于 2021-08-15T07:05:20.757 回答