0

我创建了我的自定义网格(7 x 7)环境来应用 RL 算法。我特别选择了 Q-learning 和 Sarsa。

网格环境由 3 种终止状态组成:负奖励状态(-100)、最大奖励状态(100)和 2 种半奖励状态(50)。

训练的主要目标是让智能体避免带有负奖励的状态,并更喜欢长期奖励(100)而不是短期半奖励(50)。

当半奖励状态更接近主要奖励时,受过训练的代理会奇怪地工作,但是,如果半奖励状态不接近主要奖励,那么两种算法都有效地训练代理只进入主要奖励。

所以,据我了解,结果是基于半奖励状态的位置。

我的 Q-learning 和 Sarsa 的超参数如下:epsilon=1(随着线性函数逐渐衰减),gamma=0.99(我读到,为了让智能体学习主要奖励,gamma 应该很高,0.9 -0.99 大约),alpha=0.1

问题可能是我的环境吗?我很困惑,因为这两种算法在没有半奖励状态的情况下都能很好地工作。所以问题在于,根据半奖励状态所在的位置,算法有时不会训练智能体选择长期奖励。

如果有人有类似的问题,如果您能分享您如何解决它,我将不胜感激。

4

0 回答 0