reinforcement-learning - MlpPolicy 仅返回 1 和 -1 与 action spece[-1,1]

翻译自：https://stackoverflow.com/questions/64955185 2020-11-22T14:14:44.417

76 次

0

我尝试使用 Stable Baseliens 训练带有 MlpPolicy 的 PPO2。在 100k 时间步之后，我只能得到 1 和 -1 的作用。我将动作空间限制为 [-1, 1] 并直接使用动作作为控制。不知道是不是因为我直接用action作为控制？

1 回答 1

0

这可能是 PPO2 使用的高斯分布的结果。您可以使用不使用 gauß 的不同算法或将 PPO 与其他发行版一起使用。

在此处查看示例： https ://github.com/hill-a/stable-baselines/issues/112 而本文： https ://www.ri.cmu.edu/wp-content/uploads/2017/06/论文-Chou.pdf

于 2021-01-05T21:16:40.670 回答