artificial-intelligence - 你如何评估一个训练有素的强化学习代理，无论它是否经过训练？

Question

我是强化学习代理培训的新手。我已阅读 PPO 算法并使用稳定的基线库来训练使用 PPO 的代理。所以我的问题是如何评估一个训练有素的 RL 代理。考虑回归或分类问题，我有 r2_score 或准确性等指标。是否有任何此类参数或我如何测试代理，得出代理训练好或坏的结论。

谢谢

score 0 · Accepted Answer

评估 RL 代理的一个好方法是在环境中运行它 N 次，并计算 N 次运行的平均回报。

在整个训练过程中执行上述评估步骤是很常见的，并在训练发生时绘制平均回报。您会期望平均回报会上升，这表明培训正在做一些有用的事情。

例如，在PPO 论文的图 3 中，作者绘制了带有训练步骤的平均回报，以表明 PPO 的性能优于其他算法。

score 0 · Accepted Answer

您可以使用随机策略运行您的环境，然后使用经过训练的 PPO 模型使用相同的随机种子运行相同的环境。累积奖励的比较让您对训练模型的性能有一些初步的想法。

由于您使用 PPO，您可能需要检查梯度的轨迹和 KL 散度值，以查看您是否有明确定义的阈值来接受梯度步骤。如果接受的梯度步骤很少，您可能需要修改参数。

2 回答 2