0

我正在使用 ray.rllib 并尝试使用 *tune.grid_search()* 在“CartPole-v0” env 上运行 PPO,以获取不同的参数组合,如下代码所示。但这最初是为不同的参数组合创建不同的轨迹,然后并行运行所有这些轨迹。有什么解决方案可以一个接一个地进行试验吗?就像细节一样,第一个试验应该完全运行,直到满足停止条件,然后它应该开始运行另一个试验。拜托,谁能帮我解决这个问题?

target = 8000
analysis = tune.run(
    "PPO",
    stop={"timesteps_total": target},
    mode="max",
    config={
        "env": 'CartPole-v0',
        "num_workers": 1, 
        "num_gpus": 0,
        "lr": 1e-4,
        "gamma": tune.grid_search([0.95, 0.97]),
        "entropy_coeff": tune.grid_search([0.01, 0.1]),
    },
    max_concurrent_trials=0,
)
print("best hyperparameters: ", analysis.best_config)
4

0 回答 0