我已经在一个简单的网格世界上实现了自然的 actor-critic RL 算法,它有四种可能的动作(上、下、左、右),我注意到在某些情况下它往往会卡在上下或左右。
现在,在这个领域中,上下和左右是对立的,并且觉得如果我能够以某种方式让代理意识到这一事实,学习可能会得到改善。我正在考虑在计算动作激活后简单地添加一个步骤(例如,从右激活中减去左激活,反之亦然)。但是,我担心这会在一般情况下导致收敛问题。
似乎添加约束将是该领域的共同愿望,所以我想知道是否有人知道我应该为此目的使用的标准方法。如果不是,那么我的临时方法是否合理。
提前致谢!