问题标签 [rllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
6 浏览

reinforcement-learning - 使用 RLlib 离线训练 DQN 时将 SampleBatch 对象设置为配置的输入

已经将轨迹序列(即 (s, a, r, s', ...) 元组)转换为 SampleBatch 对象,如何在离线训练 DQN 时将对象作为输入传递给配置。Ray 官方文档有 json 批处理方式,而不是 SampleBatch 格式。

0 投票
0 回答
9 浏览

ray - 我可以在推理时关闭 Ray[RLlib] A3C 模型的 Rolloutworker 吗?

有没有办法关闭或杀死 Ray A3C 模型的 rolloutworker?我注意到它需要启动 A3C 训练器,但在推理目的中没有用。它消耗了大量的cpu资源。

0 投票
0 回答
6 浏览

python - 使用 tune.grid_search 解决多个试验

我正在使用 ray.rllib 并尝试使用 *tune.grid_search()* 在“CartPole-v0” env 上运行 PPO,以获取不同的参数组合,如下代码所示。但这最初是为不同的参数组合创建不同的轨迹,然后并行运行所有这些轨迹。有什么解决方案可以一个接一个地进行试验吗?就像细节一样,第一个试验应该完全运行,直到满足停止条件,然后它应该开始运行另一个试验。拜托,谁能帮我解决这个问题?