2

我已经在一个简单的网格世界上实现了自然的 actor-critic RL 算法,它有四种可能的动作(上、下、左、右),我注意到在某些情况下它往往会卡在上下或左右。

现在,在这个领域中,上下和左右是对立的,并且觉得如果我能够以某种方式让代理意识到这一事实,学习可能会得到改善。我正在考虑在计算动作激活后简单地添加一个步骤(例如,从右激活中减去左激活,反之亦然)。但是,我担心这会在一般情况下导致收敛问题。

似乎添加约束将是该领域的共同愿望,所以我想知道是否有人知道我应该为此目的使用的标准方法。如果不是,那么我的临时方法是否合理。

提前致谢!

4

1 回答 1

2

如果可能的话,我会远离在选择动作时使用启发式方法。如果您想在训练中添加启发式方法,我会在计算奖励函数时这样做。这样,代理将学习启发式并将其体现为它所逼近的价值函数的一部分。

关于振荡行为,您是否允许不动的动作(即保持在同一位置)?

最后,我不会太担心违反一般情况和收敛保证。它们只是进行应用工作时的指导方针。

于 2013-03-14T14:15:20.390 回答