0

我是 RL 的新手,正在听 UWaterloo的讲座。在关于 Policy Iteration 的讲座 3a 中,教授举了一个 MDP 的例子,涉及一家公司需要在 Advertise(A) 或 Save(S) 决策之间做出决策——Poor Unknown(PU)、Poor Famous(PF)、Rich Famous (RF) 和 Rich Unknown (RU),如下面的 MDP 转换图所示。 在此处输入图像描述

对于第二次迭代,n=1,“Rich and Famous”的状态值显示为 54.2。我无法通过策略迭代算法进行计算。

我的计算如下,

V_2(RF) = V_1(RF) + gamma * Sum_s'[ p(s'|s,a)]*V(s')

对于保存操作,

V_2(RF) = 10 + 0.9 * [0.5*10 + 0.5 * 10] = 19

我在这里想念什么?

4

1 回答 1

0

我想我找到了答案。V 不是迭代的值更新,而是策略下的值(不同于值迭代)。因此,我们需要将线性方程解为,

V = (I - gama*P)^-1 * R ; matrix inverse method

在第二次迭代的八度音阶中,作为“ASSS”的最优策略动作,值将是,

octave:32> A=eye(4) - 0.9*[0.5 0.5 0 0; 0.5 0 0.5 0;0 0 0.5 0.5;0.5 0 0 0.5]
A =

   0.5500  -0.4500        0        0
  -0.4500   1.0000  -0.4500        0
        0        0   0.5500  -0.4500
  -0.4500        0        0   0.5500

 octave:35> B=[0;0;10;10]
B =

    0
    0
   10
   10

octave:36> A\B
ans =

   31.585
   38.604
   54.202
   44.024
于 2021-09-23T10:07:28.393 回答