我是 RL 的新手,正在听 UWaterloo的讲座。在关于 Policy Iteration 的讲座 3a 中,教授举了一个 MDP 的例子,涉及一家公司需要在 Advertise(A) 或 Save(S) 决策之间做出决策——Poor Unknown(PU)、Poor Famous(PF)、Rich Famous (RF) 和 Rich Unknown (RU),如下面的 MDP 转换图所示。
对于第二次迭代,n=1,“Rich and Famous”的状态值显示为 54.2。我无法通过策略迭代算法进行计算。
我的计算如下,
V_2(RF) = V_1(RF) + gamma * Sum_s'[ p(s'|s,a)]*V(s')
对于保存操作,
V_2(RF) = 10 + 0.9 * [0.5*10 + 0.5 * 10] = 19
我在这里想念什么?