我是强化学习的新手,我正在使用 RLlib 在 OpenAI 健身房中开发自定义环境的 RL。创建自定义环境时,是否需要在__init__()
方法中指定剧集数?另外,当我用
for _ in range(10):
trainer.train()
一次迭代中有多少时间步长?它是否等于自定义环境中定义的剧集数?谢谢你。
我是强化学习的新手,我正在使用 RLlib 在 OpenAI 健身房中开发自定义环境的 RL。创建自定义环境时,是否需要在__init__()
方法中指定剧集数?另外,当我用
for _ in range(10):
trainer.train()
一次迭代中有多少时间步长?它是否等于自定义环境中定义的剧集数?谢谢你。