我是强化学习代理培训的新手。我已阅读 PPO 算法并使用稳定的基线库来训练使用 PPO 的代理。所以我的问题是如何评估一个训练有素的 RL 代理。考虑回归或分类问题,我有 r2_score 或准确性等指标。是否有任何此类参数或我如何测试代理,得出代理训练好或坏的结论。
谢谢
我是强化学习代理培训的新手。我已阅读 PPO 算法并使用稳定的基线库来训练使用 PPO 的代理。所以我的问题是如何评估一个训练有素的 RL 代理。考虑回归或分类问题,我有 r2_score 或准确性等指标。是否有任何此类参数或我如何测试代理,得出代理训练好或坏的结论。
谢谢
评估 RL 代理的一个好方法是在环境中运行它 N 次,并计算 N 次运行的平均回报。
在整个训练过程中执行上述评估步骤是很常见的,并在训练发生时绘制平均回报。您会期望平均回报会上升,这表明培训正在做一些有用的事情。
例如,在PPO 论文的图 3 中,作者绘制了带有训练步骤的平均回报,以表明 PPO 的性能优于其他算法。
您可以使用随机策略运行您的环境,然后使用经过训练的 PPO 模型使用相同的随机种子运行相同的环境。累积奖励的比较让您对训练模型的性能有一些初步的想法。
由于您使用 PPO,您可能需要检查梯度的轨迹和 KL 散度值,以查看您是否有明确定义的阈值来接受梯度步骤。如果接受的梯度步骤很少,您可能需要修改参数。