python-2.7 - 如何在连续动作空间上调试 PPO 代理？

问问题 2021-12-06T23:24:42.647

37 次

按照https://keras.io/examples/rl/ppo_cartpole/上的 Keras 模型示例，我在我的个人连续环境中编写了我的 PPO 代理以用于研究目的。网络已初始化权重，其随机值接近 0。

问题是我的神经网络实际上是在反向学习的。换句话说，网络学会了表现得最差，但它实际上总是最差的。你有什么建议调试 RL 的类似情况吗？

0 回答 0