0

在马尔可夫决策过程中可以看到以下转换。尝试确定它

 R  A  S′ S

 0  U  C  B
-1  L  E  C
 0  D  C  A
-1  R  E  C
 0  D  C  A
+1  R  D  C
 0  U  C  B
+1  R  D  C

我需要找到状态、转换、奖励和转换的概率。除了概率,我已经解决了所有问题,但我不知道如何计算它们如果有人可以提供帮助,我只需要知道从哪里开始

4

1 回答 1

1

对于状态B,动作U总是产生新的状态C。所以,P(C|B,U)=1(你也可能会争辩说P(C|B)=1)。P(D|C,R)=2/3因为在三分之二的情况下R,州C内的行动导致了D.

于 2018-04-21T14:30:59.847 回答