0

在通过不同来源研究 MDP 时,我遇到了两个不同的用于 Value-Iteration 算法中的值更新的公式。

第一个是(维基百科上的那个和几本书):

第一个方程 .
第二个是(在堆栈上的一些问题中,我的课程幻灯片):第二个方程

对于特定的迭代,他们似乎没有给出相同的答案。其中之一是否更快地收敛到解决方案?

4

1 回答 1

0

实际上,区别在于第二个公式中的奖励函数R(s , s')或 R(s)。

第一个方程是广义的。

在第一个中,当从 state 转换到 state due action时,奖励是R a (s , s')。对于不同的状态和动作,奖励可能不同。ss'a'

但是如果对于每个状态s我们都有一些预定义的奖励(不管之前的状态和导致的动作s),那么我们可以将公式简化为第二个。

最终值不一定相等,但策略相同。

于 2020-03-11T17:34:45.850 回答