1

这个问题与Q-learning有关。

请考虑以下几点:

  1. 一个循环(吸收)状态 J - 从 J 到 J 的奖励为 100(J 是最终状态 - 从 I 到 J 的奖励也是 100)
  2. 伽马值 1
  3. 阿尔法值 0.5

假设从 J 到 J 的转换已经获得了 100 的 Q 值。新的 Q 值由下式给出: 100+0.5(100+1(100)-100) 其中 Q(max next possible states) 是 100,就好像你是在状态 J 中,要获得最大可能的下一个 Q 值,您将循环(因此最大下一个可能 Q 值是它当前的值-100)。这给了你一个新的 Q 值 150。把这个得出一个合乎逻辑的结论,每次你在 J 上循环时,Q 值都会上升 50,并且那个特定的 Q 值永远不会收敛,这对我来说似乎是错误的(这是错误的吗? ).(其他值覆盖)。我已经做了很多次这个实验,但仍然不确定。如果可以的话,请澄清上述观点。在我的大学里,我们被教导的 Q 学习非常糟糕,我有一个半星期后要交一份课程作业。

谢谢!

4

1 回答 1

1

根据维基百科,伽玛必须严格小于一。

于 2011-02-25T01:15:51.930 回答