我知道指定这total_timesteps=
是一个需要参数,但我如何model.learn()
在某些剧集中结束?原谅我,我还是新手stables_baselines3
,pytorch
仍然不知道如何在代码中实现它。
import gym
import numpy as np
from stable_baselines3 import DDPG
from stable_baselines3.common.noise import NormalActionNoise
env = gym.make('NeuralTraffic-v1')
n_actions = env.action_space.shape[-1]
action_noise = NormalActionNoise(mean=np.zeros(n_actions), sigma=0.1 * np.ones(n_actions))
model = DDPG("MlpPolicy", env, action_noise=action_noise, verbose=1)
model.learn(total_timesteps=60, log_interval=1)
model.save("ddpg")
env = model.get_env()
我想在第 60 集结束这一集,而不是我的推出是:
----------------------------------
| rollout/ | |
| ep_len_mean | 94 |
| ep_rew_mean | -2.36e+04 |
| time/ | |
| episodes | 1 |
| fps | 0 |
| time_elapsed | 452 |
| total_timesteps | 94 |
----------------------------------
不明白为什么只有1集?我想学习如何实施以将学习限制在指定的情节中。