reinforcement-learning - Q学习算法——在循环（吸收）状态上的收敛

Question

这个问题与Q-learning有关。

请考虑以下几点：

一个循环（吸收）状态 J - 从 J 到 J 的奖励为 100（J 是最终状态 - 从 I 到 J 的奖励也是 100）
伽马值 1
阿尔法值 0.5

假设从 J 到 J 的转换已经获得了 100 的 Q 值。新的 Q 值由下式给出： 100+0.5(100+1(100)-100) 其中 Q(max next possible states) 是 100，就好像你是在状态 J 中，要获得最大可能的下一个 Q 值，您将循环（因此最大下一个可能 Q 值是它当前的值-100）。这给了你一个新的 Q 值 150。把这个得出一个合乎逻辑的结论，每次你在 J 上循环时，Q 值都会上升 50，并且那个特定的 Q 值永远不会收敛，这对我来说似乎是错误的（这是错误的吗？ ).（其他值覆盖）。我已经做了很多次这个实验，但仍然不确定。如果可以的话，请澄清上述观点。在我的大学里，我们被教导的 Q 学习非常糟糕，我有一个半星期后要交一份课程作业。

谢谢！

score 1 · Accepted Answer

1

根据维基百科，伽玛必须严格小于一。

于 2011-02-25T01:15:51.930 回答

reinforcement-learning - Q学习算法——在循环（吸收）状态上的收敛

1 回答 1

Related

Reference