0

按照https://keras.io/examples/rl/ppo_cartpole/上的 Keras 模型示例,我在我的个人连续环境中编写了我的 PPO 代理以用于研究目的。网络已初始化权重,其随机值接近 0。

问题是我的神经网络实际上是在反向学习的。换句话说,网络学会了表现得最差,但它实际上总是最差的。你有什么建议调试 RL 的类似情况吗?

4

0 回答 0