我目前正在使用由 openai 制作的“spinningup”。在 spinup 中,实现了 PPO 和其他 RL 算法。但是,只有 DDPG、SAC 和 TD3 具有名为“action_limit”的变量。
我现在正在使用 PPO,我还需要剪辑(给出下限和上限)动作,因为我的机器人只在 [0, 200.0] 范围内工作。是因为 PPO 算法不需要与 DDPG、SAC、TD3 不同的 action_limit 吗?或者他们没有在 PPO 上放置 action_limit 是 spinup 的错误吗?
还是有其他聪明的方法可以在这里做出一些限制?