问题标签 [rllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
reinforcement-learning - 使用 RLlib 离线训练 DQN 时将 SampleBatch 对象设置为配置的输入
已经将轨迹序列(即 (s, a, r, s', ...) 元组)转换为 SampleBatch 对象,如何在离线训练 DQN 时将对象作为输入传递给配置。Ray 官方文档有 json 批处理方式,而不是 SampleBatch 格式。
ray - 我可以在推理时关闭 Ray[RLlib] A3C 模型的 Rolloutworker 吗?
有没有办法关闭或杀死 Ray A3C 模型的 rolloutworker?我注意到它需要启动 A3C 训练器,但在推理目的中没有用。它消耗了大量的cpu资源。
python - 使用 tune.grid_search 解决多个试验
我正在使用 ray.rllib 并尝试使用 *tune.grid_search()* 在“CartPole-v0” env 上运行 PPO,以获取不同的参数组合,如下代码所示。但这最初是为不同的参数组合创建不同的轨迹,然后并行运行所有这些轨迹。有什么解决方案可以一个接一个地进行试验吗?就像细节一样,第一个试验应该完全运行,直到满足停止条件,然后它应该开始运行另一个试验。拜托,谁能帮我解决这个问题?