1

我了解信念状态如何在 POMDP 中更新。但是在策略和价值函数部分,在http://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process我无法弄清楚如何计算 V*(T(b,a,o)) 的值以找到最佳价值函数 V *(b)。我在互联网上阅读了很多资源,但没有人解释如何清楚地计算这个。有人可以为我提供所有计算的数学解决示例,或者为我提供数学上清晰的解释。

4

2 回答 2

0

您应该查看有关 POMDP 的本教程:

http://cs.brown.edu/research/ai/pomdp/tutorial/index.html

它包括关于价值迭代的部分,可用于找到最佳策略/价值函数。

于 2014-10-25T12:25:13.750 回答
0

我尝试在此答案中使用与Wikipedia相同的符号。首先,我重复Wikipedia上所述的价值函数:

价值函数

V * (b)是以置信度b为参数的价值函数。b包含所有状态s的概率,总和为 1:

sum_b

r(b,a)是信念b和动作a的奖励,必须使用给定原始奖励函数R(s,a)的每个状态的信念来计算:处于状态s并完成动作a的奖励.

奖励定义

我们也可以用状态而不是信念b来写函数O

概率

这是在给定信念b和行动a的情况下观察到o的概率。请注意,OT是概率函数。

最后,函数τ(b,a,o)给出新的信念状态b'=τ(b,a,o)给定先前的信念b、动作a和观察o。每个状态我们可以计算新的概率:

信念更新

现在新的信念b'可用于迭代计算:V(τ(b,a,o))

可以通过使用例如应用动态规划的值迭代来接近最优值函数。然后迭代更新函数,直到差值小于一个小的值 ε。

有关 POMDP 的更多信息,例如:

于 2015-10-14T13:44:18.767 回答