0

我正在尝试在一个环境(来自 mujoco 的 Walker2d)fam 上训练一个具有稳定基线的 SAC 代理,时间步长为 5M。

model = SAC("MlpPolicy", env, verbose=1, **hyperparam)
save_every = 5000000
model.learn(total_timesteps=save_every, log_interval=save_every//10,)

但是,此过程存在内存泄漏,因为 SAC 在每一步都在保存一些内容,并且内存不断增长。有没有办法告诉稳定的基线来限制使用的内存?

4

0 回答 0