0

我正在尝试在 /examples/rllib 文件夹中运行 stabilizing_highway.py 脚本并收集了一组学习检查点。现在我想将学习带来的改进与基线场景进行比较,例如如果没有自治代理会发生什么。

我最近遇到了一个 TestEnv 类。如果我只是在相同的代码中用 TestEnv 替换当前的 WaveAttenuationMergePOEnv env_name,它会在完全相同的配置下模拟非常正常的人类驾驶行为而无需学习吗?

这会是一个很好的复制品,可以被视为基线吗?

4

1 回答 1

0

由于您的问题是前段时间提出的,您可能已经为自己找到了答案,但我仍然尝试为有此问题的其他人回答这个问题:TestEnv 类用于进行模拟而没有任何训练目标。因此,它计算零奖励,并定义空的动作空间和观察空间。据我了解,它的目的正是您所要求的。

BR,瓦洛特

于 2019-12-13T14:35:01.473 回答