0

嗨,我正在使用 PPO 算法为控制问题训练强化学习代理。我正在跟踪训练过程中每一集的累积奖励。在训练过程中,我多次看到累积的奖励突然下降。我无法弄清楚为什么会发生这种情况或如何避免这种情况。尝试更改一些超参数,例如更改神经网络层中的神经元数量、学习率等。但我仍然看到这种情况一直在发生。如果我调试并检查在下跌期间采取的行动,显然行动是非常糟糕的,因此会导致奖励减少。

有人可以帮助我理解为什么会发生这种情况或如何避免这种情况吗?

我训练过程的一些情节

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

4

1 回答 1

0

我最近读了这篇论文:https ://arxiv.org/pdf/1805.07917.pdf 我没有特别使用过这种方法,所以我不能保证它的用处,但是对这个问题的解释对我来说似乎很有说服力:

例如,在学习过程中,猎豹受益于身体前倾以提高速度,从而在该方向上产生强烈的梯度。然而,如果猎豹倾斜太多,它就会倒下。基于梯度的方法似乎经常落入这个陷阱,然后无法恢复,因为来自新状态的梯度信息不能保证撤消最后的梯度更新。

于 2019-11-25T15:23:44.523 回答