我有一个关于我自己测试强化学习技术的项目的问题。首先让我解释一下目的。我有一个代理可以在 8 个步骤中执行 4 个操作。在这八个步骤结束时,代理可以处于 5 种可能的胜利状态。目标是找到最小成本。要获得这 5 次胜利(具有不同的成本值:50、50、0、40、60),代理不会采用相同的路径(如图形)。蓝色状态是失败状态(对质量感到抱歉)并且剧集已停止。
真正好的路径是:DCCBBAD
现在我的问题是,我不明白为什么在 SARSA 和 Q-Learning(主要是 Q 学习)中,代理在 100 000 次迭代后找到了一条路径但不是最优路径(总是:DACBBAD/DACBBCD)。有时当我再次计算时,代理会落入良好的路径(DCCBBAD)。因此,我想了解为什么有时代理会找到它,而有时却找不到。还有一种方法可以让我的代理稳定下来吗?
十分感谢,
坦吉