我正在使用 ray.rllib 并尝试使用 *tune.grid_search()* 在“CartPole-v0” env 上运行 PPO,以获取不同的参数组合,如下代码所示。但这最初是为不同的参数组合创建不同的轨迹,然后并行运行所有这些轨迹。有什么解决方案可以一个接一个地进行试验吗?就像细节一样,第一个试验应该完全运行,直到满足停止条件,然后它应该开始运行另一个试验。拜托,谁能帮我解决这个问题?
target = 8000
analysis = tune.run(
"PPO",
stop={"timesteps_total": target},
mode="max",
config={
"env": 'CartPole-v0',
"num_workers": 1,
"num_gpus": 0,
"lr": 1e-4,
"gamma": tune.grid_search([0.95, 0.97]),
"entropy_coeff": tune.grid_search([0.01, 0.1]),
},
max_concurrent_trials=0,
)
print("best hyperparameters: ", analysis.best_config)