python - RLlib 训练一次迭代中的时间步数

Question

我是强化学习的新手，我正在使用 RLlib 在 OpenAI 健身房中开发自定义环境的 RL。创建自定义环境时，是否需要在__init__()方法中指定剧集数？另外，当我用

for _ in range(10):
     trainer.train()

一次迭代中有多少时间步长？它是否等于自定义环境中定义的剧集数？谢谢你。

score 1 · Accepted Answer

1

我认为您需要为一集中的最大步数设置的是超参数“地平线”

于 2021-07-01T21:25:25.990 回答

score 0 · Accepted Answer

我发现 Ray 只有当您的环境设置为“完成/_终止”时，剧集才会终止。在其他框架上运行时，算法通常有一个用于 num_steps 等的超参数。我发现这一点是因为如果我的代理卡住了，它会永远坐在那里，所以我需要在环境本身中添加一个最大时间步数检查。

不过，剧集的数量是在环境之外设置的。

2 回答 2