0

我正在使用 RlLib 使用 PPO 算法训练代理:如果达到目标,则“Ant”代理获得 +1,否则为 0。
超参数:

config['train_batch_size'] = 16000
config['gamma'] = 0.99
config['lambda'] = 0.95
config['entropy_coeff'] = 0.
config['clip_param'] = 0.2
config['vf_loss_coeff'] = 0.5
config['observation_filter'] = 'MeanStdFilter'
config['sgd_minibatch_size'] = 128
config['num_sgd_iter'] = 10
config['lr'] = 3e-4
config['grad_clip'] = 0.5

我训练了 5 次试验。但是,如图所示,其中 2 条轨迹在一定次数的迭代后崩溃: Average Reward Mean 有什么解释吗?

4

0 回答 0