python - 强化学习训练在改进后崩溃

翻译自：https://stackoverflow.com/questions/70466595 2021-12-23T19:25:05.343

22 次

我正在使用 RlLib 使用 PPO 算法训练代理：如果达到目标，则“Ant”代理获得 +1，否则为 0。
超参数：

config['train_batch_size'] = 16000
config['gamma'] = 0.99
config['lambda'] = 0.95
config['entropy_coeff'] = 0.
config['clip_param'] = 0.2
config['vf_loss_coeff'] = 0.5
config['observation_filter'] = 'MeanStdFilter'
config['sgd_minibatch_size'] = 128
config['num_sgd_iter'] = 10
config['lr'] = 3e-4
config['grad_clip'] = 0.5

我训练了 5 次试验。但是，如图所示，其中 2 条轨迹在一定次数的迭代后崩溃： Average Reward Mean 有什么解释吗？

python - 强化学习训练在改进后崩溃

0 回答 0

Related

Reference