1

稳定基线中的模型在创建时需要一个环境。例如

env = gym.make('CartPole-v1')
model = PPO2(MlpPolicy, env)

评估助手还需要指定环境。IE

mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=100)

如果模型中已经指定了评估助手中指定的环境,那么它的目的是什么?环境是模型创建和评估中的强制性参数。

谢谢

4

0 回答 0