我试图首先在一个简单的环境中训练一个 PPOTrainer 进行 250 次迭代,然后在修改后的环境中完成训练。(环境之间的唯一区别是环境配置参数之一的变化)。
到目前为止,我已经尝试实现以下内容:
ray.init()
config = ppo.DEFAULT_CONFIG.copy()
config["env_config"] = defaultconfig
trainer = ppo.PPOTrainer(config=config, env=qsd.QSDEnv)
trainer.config['env_config']['meas_quant']=1
for i in range(250):
result = trainer.train()
#attempt to change the parameter 'meas_quant' from 1 to 2
trainer.config['env_config']['meas_quant'] = 2
trainer.workers.local_worker().env.meas_quant = 2
for i in range(250):
result = trainer.train()
但是,第二次训练仍然使用初始环境配置。任何帮助弄清楚如何解决这个问题将不胜感激!