我第一次使用 rllib,并尝试训练一个自定义的多代理 RL 环境,并希望在其上训练几个 PPO 代理。我需要弄清楚的实现问题是如何改变对一名特工的训练,以便这个特工每 X 个时间步才采取一次行动。最好只在每 X 个时间步调用 compute_action() 吗?或者,在其他步骤中,屏蔽策略选择,以便他们必须重新采样操作,直到调用 No-Op?或者将输入环境的动作 + 训练批次中的先前动作修改为 No-Ops?
仍然利用 rllib 的训练功能的最简单的实现方法是什么?我需要为此创建一个自定义训练循环,还是有办法配置 PPOTrainer 来做到这一点?
谢谢