我已经采用了 PPO 算法的一些参考实现,并正在尝试创建一个可以玩太空入侵者的代理。不幸的是,从第 2 次试验开始(在第一次训练演员和评论家 N 网络之后),动作的概率分布仅收敛于动作,并且 PPO 损失和评论家损失仅收敛于一个值。
想了解这可能发生的可能原因。我真的不能在我的云虚拟机中运行代码,因为我不能确定我没有遗漏任何东西,因为虚拟机的使用成本很高。我将不胜感激这方面的任何帮助或建议。如果需要,我也可以发布代码。使用的超参数如下:
clipping_val = 0.2critic_discount = 0.5 entropy_beta = 0.001 gamma = 0.99 lambda = 0.95