我正在尝试将来自 stable baselines3 库https://stable-baselines3.readthedocs.io/en/master/的 PPO 算法应用到我制作的自定义环境中。
我不明白的一件事是以下行:
mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=10, deterministic=True)
我应该总是让确定性等于真吗?当我保持确定性 =“真”时,我的自定义环境“以某种方式”总是得到解决(即,总是返回 1 +/- 0 标准的奖励)。
当我将其更改为“False”时,它开始以合理的方式表现(即,有时它成功(reward=1),有时它失败(reward=0)。