0

我正在对我的自建任务实施 PPO2 强化学习,并且总是遇到代理似乎接近成熟然后突然灾难性地失去其性能并且无法保持其稳定性能的情况。我不知道用什么词来形容它是正确的。

我只是想知道造成这种灾难性性能下降的原因是什么?任何提示或提示?

非常感谢

学习 过程1 学习过程2

4

1 回答 1

0

我猜你的奖励函数没有上限,并且在某些边缘情况下会产生极高的负奖励。

防止这种情况的两件事是:

  1. 限制奖励函数的值
  2. 确保您可以处理学习环境不稳定的情况,例如进程崩溃、冻结、遇到错误。例如,如果您在代理跌倒(机器人试图走路)时给予负奖励,并且由于一些罕见的错误而环境没有检测到跌倒,那么您的奖励函数会一直给予负奖励,直到情节停止。

大多数情况下,这没什么大不了的,但如果你不走运,你的环境甚至会产生 NaN 值,而这些值会破坏你的网络

于 2021-01-05T21:06:53.403 回答