我有一个贝尔曼方程和一个值函数 V(x, i)。我的目标是通过迭代找到期望值 EV(x,i)。我猜 EV^0 的初始值为 0。从最初的猜测中,我计算 EV^1 如下:
并迭代直到收敛。上面,y 是 x 的未来值,j 是 i 的未来值,P(y|x,i) 是一个 4×4 的转移矩阵,即参数集(与线性函数 u 一起已知) beta 是折扣因子。
我已经尝试使用 R 中的 MDPtoolbox 包来解决这个问题,但是 - 据我所知 - 这不会让您尝试函数,只能使用实际数字。如果有人知道如何编码,请告诉我!