我正在尝试在 /examples/rllib 文件夹中运行 stabilizing_highway.py 脚本并收集了一组学习检查点。现在我想将学习带来的改进与基线场景进行比较,例如如果没有自治代理会发生什么。
我最近遇到了一个 TestEnv 类。如果我只是在相同的代码中用 TestEnv 替换当前的 WaveAttenuationMergePOEnv env_name,它会在完全相同的配置下模拟非常正常的人类驾驶行为而无需学习吗?
这会是一个很好的复制品,可以被视为基线吗?
我正在尝试在 /examples/rllib 文件夹中运行 stabilizing_highway.py 脚本并收集了一组学习检查点。现在我想将学习带来的改进与基线场景进行比较,例如如果没有自治代理会发生什么。
我最近遇到了一个 TestEnv 类。如果我只是在相同的代码中用 TestEnv 替换当前的 WaveAttenuationMergePOEnv env_name,它会在完全相同的配置下模拟非常正常的人类驾驶行为而无需学习吗?
这会是一个很好的复制品,可以被视为基线吗?