问题标签 [rllib]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73 问题

0 投票

0 回答

6 浏览

reinforcement-learning - 使用 RLlib 离线训练 DQN 时将 SampleBatch 对象设置为配置的输入

已经将轨迹序列（即 (s, a, r, s', ...) 元组）转换为 SampleBatch 对象，如何在离线训练 DQN 时将对象作为输入传递给配置。Ray 官方文档有 json 批处理方式，而不是 SampleBatch 格式。

2022-02-25T11:45:43.180

0 投票

0 回答

9 浏览

ray - 我可以在推理时关闭 Ray[RLlib] A3C 模型的 Rolloutworker 吗？

有没有办法关闭或杀死 Ray A3C 模型的 rolloutworker？我注意到它需要启动 A3C 训练器，但在推理目的中没有用。它消耗了大量的cpu资源。

ray rllib

2022-03-02T06:19:54.203

0 投票

0 回答

6 浏览

python - 使用 tune.grid_search 解决多个试验

我正在使用 ray.rllib 并尝试使用 *tune.grid_search()* 在“CartPole-v0” env 上运行 PPO，以获取不同的参数组合，如下代码所示。但这最初是为不同的参数组合创建不同的轨迹，然后并行运行所有这些轨迹。有什么解决方案可以一个接一个地进行试验吗？就像细节一样，第一个试验应该完全运行，直到满足停止条件，然后它应该开始运行另一个试验。拜托，谁能帮我解决这个问题？

python reinforcement-learning ray rllib

2022-03-03T13:43:48.577

1 2 3 4 5 6 7 8 9 10

问题标签 [rllib]

reinforcement-learning - 使用 RLlib 离线训练 DQN 时将 SampleBatch 对象设置为配置的输入

ray - 我可以在推理时关闭 Ray[RLlib] A3C 模型的 Rolloutworker 吗？

python - 使用 tune.grid_search 解决多个试验

Reference