我尝试使用 Stable Baseliens 训练带有 MlpPolicy 的 PPO2。在 100k 时间步之后,我只能得到 1 和 -1 的作用。我将动作空间限制为 [-1, 1] 并直接使用动作作为控制。不知道是不是因为我直接用action作为控制?
问问题
76 次
1 回答
0
这可能是 PPO2 使用的高斯分布的结果。您可以使用不使用 gauß 的不同算法或将 PPO 与其他发行版一起使用。
在此处查看示例: https ://github.com/hill-a/stable-baselines/issues/112 而本文: https ://www.ri.cmu.edu/wp-content/uploads/2017/06/论文-Chou.pdf
于 2021-01-05T21:16:40.670 回答