Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
在通过不同来源研究 MDP 时,我遇到了两个不同的用于 Value-Iteration 算法中的值更新的公式。
第一个是(维基百科上的那个和几本书):
. 第二个是(在堆栈上的一些问题中,我的课程幻灯片):
对于特定的迭代,他们似乎没有给出相同的答案。其中之一是否更快地收敛到解决方案?
实际上,区别在于第二个公式中的奖励函数R(s , s')或 R(s)。
第一个方程是广义的。
在第一个中,当从 state 转换到 state due action时,奖励是R a (s , s')。对于不同的状态和动作,奖励可能不同。ss'a'
s
s'
a'
但是如果对于每个状态s我们都有一些预定义的奖励(不管之前的状态和导致的动作s),那么我们可以将公式简化为第二个。
最终值不一定相等,但策略相同。