dynamic-programming - MDP 策略迭代示例计算

Question

我是 RL 的新手，正在听 UWaterloo的讲座。在关于 Policy Iteration 的讲座 3a 中，教授举了一个 MDP 的例子，涉及一家公司需要在 Advertise(A) 或 Save(S) 决策之间做出决策——Poor Unknown(PU)、Poor Famous(PF)、Rich Famous (RF) 和 Rich Unknown (RU)，如下面的 MDP 转换图所示。

对于第二次迭代，n=1，“Rich and Famous”的状态值显示为 54.2。我无法通过策略迭代算法进行计算。

我的计算如下，

V_2(RF) = V_1(RF) + gamma * Sum_s'[ p(s'|s,a)]*V(s')

对于保存操作，

V_2(RF) = 10 + 0.9 * [0.5*10 + 0.5 * 10] = 19

我在这里想念什么？

score 0 · Accepted Answer

我想我找到了答案。V 不是迭代的值更新，而是策略下的值（不同于值迭代）。因此，我们需要将线性方程解为，

V = (I - gama*P)^-1 * R ; matrix inverse method

在第二次迭代的八度音阶中，作为“ASSS”的最优策略动作，值将是，

octave:32> A=eye(4) - 0.9*[0.5 0.5 0 0; 0.5 0 0.5 0;0 0 0.5 0.5;0.5 0 0 0.5]
A =

   0.5500  -0.4500        0        0
  -0.4500   1.0000  -0.4500        0
        0        0   0.5500  -0.4500
  -0.4500        0        0   0.5500

 octave:35> B=[0;0;10;10]
B =

    0
    0
   10
   10

octave:36> A\B
ans =

   31.585
   38.604
   54.202
   44.024

dynamic-programming - MDP 策略迭代示例计算

1 回答 1

Related

Reference