我是深度强化学习的初学者,想用 PPO 算法在 RLLIB 中训练我自己的健身房环境。但是,我在查看我的超参数设置是否成功时遇到了一些困难。除了应该上升的明显的 episode_reward_mean 指标外,我们还有许多其他的情节。
我对成功的训练过程中熵应该如何演变特别感兴趣。就我而言,它看起来像这样:
它通常下降到 0 以下,然后收敛。我知道熵作为损失函数的一部分正在强制探索,因此可以加速学习。但是为什么会变成负数呢?它不应该总是大于或等于0吗?
成功培训的其他特征是什么(vf_explained_var、vf_loss、kl、...)?