0

我尝试使用以下论文来改进我的代理的学习https://arxiv.org/pdf/1511.05952.pdf

虽然它似乎在确定性环境中工作得很好,但我觉得它实际上会使它在随机环境中变得更糟。

假设对于状态 S_w 的动作 A_w,我们有 50% 的机会获得 +1000000 的奖励和 50% 的机会获得 -1000000 的奖励(在其他状态下可以忽略不计的确定性奖励)。因此,该动作的真实 Q 值将是 0。

在对任何一个可能的样本进行训练时(假设这两种情况都在回放内存中),这些样本的优先级将设置为 1000000,因此为即将到来的更新选择这些样本的概率将趋于 1(它们中的每一个如果我们不将新样本添加到重放内存中,则在 0 和 1 之间振荡。

因此,其他样本将永远不会被训练。

我的问题是:我们如何处理它?我应该在这样的环境中简单地放弃使用这种技术吗?

4

1 回答 1

0

该论文的作者似乎在几个地方解决了这个问题。最重要的是,他们提到了奖励裁剪:

出于稳定性原因,奖励和 TD-errors 被限制在 [−1, 1] 范围内。

这意味着如果奖励是 1000000,那么他们将其剪裁为 1,如果是 -1000000,他们将其剪裁为 -1。-1 和 1 之间的奖励不变。

一般来说,深度 Q 学习算法在奖励值极高的情况下非常不稳定。由于这些用于反向传播,模型的参数很可能会被大的 TD 误差值严重破坏,从而使算法难以收敛。出于这个原因,通常使用奖励或梯度裁剪。

该论文还提到贪婪优先级对随机奖励引起的噪声峰值敏感,并且他们的方法是贪婪优先级和统一方法之间的插值。他们使用等式 (1) 中的 alpha 参数来使策略不那么贪婪,如果随机性导致问题,这可能会有所帮助。他们还在第 5 节中讨论了基于等级的优先级对误差幅度和异常值更稳健,并表示由于“大量使用裁剪”可能不需要它。

该方法也有可能更倾向于确定性奖励——他们还提到他们测试的环境(雅达利游戏)是“接近确定性的”。

从更广泛的角度来看,奖励的巨大差异表明在您强调的过渡中需要学习一些东西 - 似乎您可以在该过渡的基础上赢得或输掉比赛。如果是这种情况,算法(它不知道游戏是确定性的还是随机的)将花费大量时间来尝试了解该转换。如果你想学会赢得比赛,这是有道理的,但在这种情况下,比赛似乎是随机的,所以没有什么可学的。

于 2020-06-20T15:26:44.680 回答