1

我正在使用 ray 提供的 PPO 算法来训练 RL 代理以稳定流量。在训练过程中,我不断看到 ValueError('Observation outside expected value range', Box(500,) screenshot

但是,我不知道我的脚本的哪一部分导致了这个问题,或者它是否是由流量引起的?

4

1 回答 1

0

Oof 是的,这是由 RLlib 升级引起的一个非常小的错误。基本上,我们以前使用的Ray版本对观察空间的限制并不严格,但是新版本的Ray确实如此。您可以通过进入相应的环境并将观察空间的低值和高值更改为稍微宽松一些来解决此问题(例如,-2 到 2 而不是当前的 -1 到 1)

于 2019-10-14T23:25:33.710 回答