6

假设我们在一个房间里,我们的代理可以沿着 xx 和 yy 轴移动。在每个点上,他都可以上下左右移动。所以我们的状态空间可以由 (x, y) 定义,我们在每个点的动作由 (up, down, right, left) 给出。让我们假设,无论我们的代理在哪里做了一个让他撞墙的动作,我们都会给他一个负奖励 -1,并让他回到之前的状态。如果他在房间中央找到一个木偶,他将获得+10 奖励。

当我们为给定的状态/动作对更新我们的 QValue 时,我们正在查看在新状态下可以执行哪些操作并计算可能到达那里的最大 QValue 是多少,因此我们可以更新我们的 Q(s, a)我们当前状态/动作的价值。这意味着如果我们在点 (10, 10) 有一个目标状态,那么它周围的所有状态都会随着距离的增加而变得越来越小。现在,就墙壁而言,在我看来,情况并非如此。

当智能体撞墙时(假设他处于 (0, 0) 位置并执行了 UP 动作),他将针对该状态/动作获得 -1 的奖励,从而获得 -1 的 QValue。

现在,如果稍后我处于状态 (0, 1),并假设状态 (0,0 0) 的所有其他动作为零,则在计算动作 LEFT 的 (0, 1) 的 QValue 时,它​​将计算它通过以下方式:

Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0

也就是说,撞墙不会传播到附近的状态,这与当你有积极的奖励状态时发生的情况相反。

在我看来,这似乎很奇怪。起初我认为找到给予负奖励的状态/动作对在学习方面与正奖励一样好,但从我上面展示的例子来看,这种说法似乎并不成立。该算法似乎存在一种偏见,即更多地考虑积极奖励而不是消极奖励。

这是 QLearning 的预期行为吗?坏奖励不应该和积极奖励一样重要吗?什么是“解决方法”?

4

3 回答 3

6

只有当负面反馈是特定动作的唯一可能结果时,负面反馈才会传播。

我不知道这是故意的还是无意的。

于 2009-12-04T00:59:52.587 回答
3

您可以通过将默认奖励从 0 增加到 1、目标奖励从 10 增加到 11、将惩罚从 -1 增加到 0 来避免负奖励。

有大量关于 Q-learning 的科学出版物,所以我确信还有其他的公式可以允许负面反馈。

编辑:我的立场是正确的,这不会改变我之前所说的行为。我的想法是,带有负面反馈的公式可以用没有的公式代替。

你观察的原因是你对你的行动的结果或它所处的状态没有不确定性,因此你的代理总是可以选择它认为具有最佳奖励的行动(因此,所有未来行动的最大 Q 值) . 这就是为什么您的负面反馈不会传播的原因:代理将来会简单地避免该操作。

但是,如果您的模型包含对您的行为结果的不确定性(例如,总是有 10% 的概率沿随机方向移动),那么您的学习规则应该整合所有可能的未来奖励(基本上用加权代替最大值)和)。在这种情况下,也可以传播负面反馈(这就是为什么我认为它应该是可能的:p)。此类模型的示例是POMDP

于 2009-12-04T01:09:18.873 回答
0

您的问题在“强化学习:简介”一书中得到了解答,其中有“最大化偏差和双重学习”一节。

“Q-Learing”算法有一个缺点,即隐含地使用超过估计值的最大值作为最大值的估计,这可能导致显着的正偏差。

“Double Q-Learning”算法可以避免最大化偏差并解决您需要学习两个独立估计的问题,称为 Q_1(a) 和 Q_2(a)。这里我为你贴上伪代码: Double Q-Learning

于 2017-12-15T04:04:16.077 回答