algorithm - 网格环境中的 Q-learning 和 Sarsa 用于短期与长期奖励

翻译自：https://stackoverflow.com/questions/70664560 2022-01-11T09:43:57.113

30 次

我创建了我的自定义网格（7 x 7）环境来应用 RL 算法。我特别选择了 Q-learning 和 Sarsa。

网格环境由 3 种终止状态组成：负奖励状态（-100）、最大奖励状态（100）和 2 种半奖励状态（50）。

训练的主要目标是让智能体避免带有负奖励的状态，并更喜欢长期奖励（100）而不是短期半奖励（50）。

当半奖励状态更接近主要奖励时，受过训练的代理会奇怪地工作，但是，如果半奖励状态不接近主要奖励，那么两种算法都有效地训练代理只进入主要奖励。

所以，据我了解，结果是基于半奖励状态的位置。

我的 Q-learning 和 Sarsa 的超参数如下：epsilon=1（随着线性函数逐渐衰减），gamma=0.99（我读到，为了让智能体学习主要奖励，gamma 应该很高，0.9 -0.99 大约），alpha=0.1

问题可能是我的环境吗？我很困惑，因为这两种算法在没有半奖励状态的情况下都能很好地工作。所以问题在于，根据半奖励状态所在的位置，算法有时不会训练智能体选择长期奖励。

如果有人有类似的问题，如果您能分享您如何解决它，我将不胜感激。

0 回答 0