2

我一直在尝试使用不同的变体在 Python 上实现强化学习算法,例如Q-learning,和. 考虑一个推车杆示例并评估每个变体的性能,我可以考虑绘制(附上绘图图片)和实际图形输出,其中杆在推车移动时的稳定性如何。Deep Q-NetworkDouble DQNDueling Double DQNsum of rewardsnumber of episodes 评估强化学习模型

但是这两个评估在定量解释更好的变体方面并不真正感兴趣。我是强化学习的新手,并试图了解是否有任何其他方法可以在同一问题上比较 RL 模型的不同变体。

我指的是 colab 链接https://colab.research.google.com/github/ageron/handson-ml2/blob/master/18_reinforcement_learning.ipynb#scrollTo=MR0z7tfo3k9C上的所有车杆示例变体的代码。

4

1 回答 1

1

你可以在关于这些算法的研究论文中找到答案,因为当一个新算法被提出时,我们通常需要通过实验来证明它比其他算法具有优势。

关于 RL 算法的研究论文中最常用的评估方法是时间步长的平均回报(注意不是奖励,回报是累积奖励,就像游戏中的分数),有很多方法可以平均回报,例如不同超参数的平均就像在Soft Actor-Critic 论文的比较评估平均值 wrt 不同的随机种子(初始化模型)中一样:

图 1 显示了 DDPG、PPO 和 TD3 训练期间评估推出的总平均回报。我们用不同的随机种子训练每种算法的五个不同实例,每个实例每 1000 个环境步骤执行一次评估滚动。实线对应于平均值,阴影区域对应于五次试验的最小值和最大值。

在此处输入图像描述

我们通常想要比较许多算法的性能,不仅是在一个任务上,而且在不同的任务集(即基准测试)上,因为算法可能有某种形式的归纳偏差,使它们在某种形式的任务上更好,但在其他任务上更差,例如在Phasic Policy Gradient 论文中与 PPO 的实验比较:

我们在 Procgen Benchmark (Cobbe et al.,2019) 中报告了环境的结果。该基准被设计为高度多样化,我们希望该基准的改进能够很好地转移到许多其他 RL 环境

在此处输入图像描述

于 2021-01-09T03:53:41.530 回答