reinforcement-learning - Q-Learning 收敛到最优策略

Question

我正在使用基于 rglue 的python-rl框架进行 q-learning。我的理解是，随着剧集的数量，算法收敛到最优策略（这是一个映射，说明在什么状态下采取什么行动）。

问题 1：这是否意味着在经过若干集（比如 1000 集或更多集）之后，我应该基本上得到相同的状态：动作映射？

问题2：如果算法已经收敛到某个策略，为什么奖励会下降？奖励是否有可能发生巨大变化？

问题 3：我可以使用一些标准方法来比较各种 RL 算法的结果吗？

score 4 · Accepted Answer

Q1：它将收敛到一个映射，除非多个映射是最优的。

Q2：Q-Learning 有一个探索参数，它决定了随机、潜在的次优移动的频率。只要此参数不为零，奖励就会波动。

Q3：奖励图表，如您提供的链接中所示。检查http://rl-community.org。

1 回答 1