我了解信念状态如何在 POMDP 中更新。但是在策略和价值函数部分,在http://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process我无法弄清楚如何计算 V*(T(b,a,o)) 的值以找到最佳价值函数 V *(b)。我在互联网上阅读了很多资源,但没有人解释如何清楚地计算这个。有人可以为我提供所有计算的数学解决示例,或者为我提供数学上清晰的解释。
问问题
410 次
2 回答
0
您应该查看有关 POMDP 的本教程:
http://cs.brown.edu/research/ai/pomdp/tutorial/index.html
它包括关于价值迭代的部分,可用于找到最佳策略/价值函数。
于 2014-10-25T12:25:13.750 回答
0
我尝试在此答案中使用与Wikipedia相同的符号。首先,我重复Wikipedia上所述的价值函数:
V * (b)是以置信度b为参数的价值函数。b包含所有状态s的概率,总和为 1:
r(b,a)是信念b和动作a的奖励,必须使用给定原始奖励函数R(s,a)的每个状态的信念来计算:处于状态s并完成动作a的奖励.
我们也可以用状态而不是信念b来写函数O:
这是在给定信念b和行动a的情况下观察到o的概率。请注意,O和T是概率函数。
最后,函数τ(b,a,o)给出新的信念状态b'=τ(b,a,o)给定先前的信念b、动作a和观察o。每个状态我们可以计算新的概率:
现在新的信念b'可用于迭代计算:V(τ(b,a,o))。
可以通过使用例如应用动态规划的值迭代来接近最优值函数。然后迭代更新函数,直到差值小于一个小的值 ε。
有关 POMDP 的更多信息,例如:
- 塞巴斯蒂安·特伦、沃尔夫拉姆·伯加德和迪特·福克斯。2005. 概率机器人(智能机器人和自主代理)。麻省理工学院出版社。
- 强化学习简介
- POMDP 教程
- 强化学习和马尔可夫决策过程
于 2015-10-14T13:44:18.767 回答