3

我刚刚开始使用深度强化学习,我正试图扼杀这个概念。

我有这个确定性贝尔曼方程

确定性贝尔曼方程

当我从 MDP 实现随机性时,我得到 2.6a

在确定性服务员中实施 MDP

我的等式是这个假设正确的。我看到这个实现 2.6a 在状态值函数上没有策略标志。但对我来说,这没有任何意义,因为我正在使用我可能最终进入哪些不同的下一步的概率。我认为这与说政策相同。如果是 2.6a 是正确的,那么我可以假设其余部分(2.6b 和 2.6c),因为那时我想像这样编写动作状态函数:

带有策略的状态动作函数

我之所以这样做,是因为我想从确定性的角度向非确定性的角度解释自己。

我希望有人可以帮助解决这个问题!

最好的问候索伦科赫

4

2 回答 2

2

不,价值函数V(s_t)不依赖于策略。您在等式中看到它是根据a_t使数量最大化的动作来定义的,因此它不是根据任何策略选择的动作来定义的。

在非确定性/随机情况下,您将得到概率总和乘以状态值,但这仍然独立于任何策略。总和仅对不同的可能未来状态求和,但每次乘法都涉及完全相同的(与策略无关的)动作a_t。您拥有这些概率的唯一原因是,在不确定的情况下,特定状态下的特定操作可能会导致多种不同可能状态中的一种。这不是由于政策,而是由于环境本身的随机性。


确实存在诸如策略的价值函数之类的东西,并且在谈论应该包括策略的符号时。但这通常不仅仅是“价值函数”的意思,也不符合您向我们展示的方程式。一个依赖于策略的函数将用max_{a_t}对所有动作的总和替换 ,并且在总和内是策略选择状态中的动作a的概率。pi(s_t, a)pias_t

于 2018-02-24T15:21:22.773 回答
2

是的,你的假设是完全正确的。在强化学习领域,价值函数是从特定状态开始并遵循策略 π 获得的回报。所以是的,严格来说,它应该伴随着策略符号 π 。

贝尔曼方程基本上递归地表示值函数。不过需要注意的是,有两种贝尔曼方程:

  • 贝尔曼最优方程,它表征了最优值函数。在这种情况下,它的价值函数隐含地与最优策略相关联。该方程具有非线性max运算符,并且是您发布的方程。(最佳)策略依赖有时用星号表示,如下所示: 在此处输入图像描述 也许一些简短的文本或论文会忽略这种依赖,假设它是显而易见的,但我认为任何 RL 教科书最初都应该包含它。例如,参见Sutton & BartoBusoniu 等人。图书。

  • 表征价值函数的贝尔曼方程,在这种情况下与任何策略 π 相关联: 在此处输入图像描述

在您的情况下,您的方程 2.6 基于贝尔曼方程,因此它应该删除max运算符并包括所有动作和可能的下一个状态的总和。来自Sutton & Barto(抱歉,您的问题的符号改变了,但我认为它不稳定): 在此处输入图像描述

于 2018-02-23T20:41:47.980 回答