我正在尝试了解马尔可夫决策问题,并获得了值迭代算法,但我很困惑如何将它们转换为实际的 C++ 代码。主要是发生求和等的部分。这是算法:
function VALUE-ITERATION(P;R) returns a utility matrix
inputs: P, a transition-probability matrix
R, a reward matrix
local variables: U, utility matrix, initially identical to R
U', utility matrix, initially identical toR
repeat
U <- U'
for each state i do
U'(s_i) <- R(s_i) + max_a Summation_j P^a_ij*U(s_j)
end
until max_(s_i) |U(s_i) - U'(s_i)| < e
return U
这对我来说就像象形文字,有没有更简单的算法对我有更大的帮助?或者有人可以为我愚蠢吗?