0

我是深度强化学习的初学者,想用 PPO 算法在 RLLIB 中训练我自己的健身房环境。但是,我在查看我的超参数设置是否成功时遇到了一些困难。除了应该上升的明显的 episode_reward_mean 指标外,我们还有许多其他的情节。

我对成功的训练过程中熵应该如何演变特别感兴趣。就我而言,它看起来像这样:

熵.jpg

它通常下降到 0 以下,然后收敛。我知道熵作为损失函数的一部分正在强制探索,因此可以加速学习。但是为什么会变成负数呢?它不应该总是大于或等于0吗?

成功培训的其他特征是什么(vf_explained_var、vf_loss、kl、...)?

4

1 回答 1

2

如果你的动作空间是连续的,熵可以是负的,因为微分熵可以是的。

理想情况下,您希望熵在训练过程中缓慢而平稳地减少,因为代理会以探索换取剥削。

关于 vf_* 指标,了解它们的含义会很有帮助。

在策略梯度方法中,通过使用价值函数(由神经网络参数化)来估计未来更远的奖励(查看PPO 论文第 5 页的一些数学知识),有助于减少推出估计的方差)。

vf_explained_var是通过使用价值函数来解释这些未来奖励的变化。如果可能,您希望它更高,并且最高为 1;但是,如果您的环境中存在随机性,则它实际上不太可能达到 1。vf_loss是您的价值函数发生的错误;理想情况下,这将减少到 0,尽管这并不总是可能的(由于随机性)。 kl是每个时间步的旧策略和新策略之间的差异:您希望它在训练时平滑减小以指示收敛。

于 2020-08-20T23:16:56.807 回答