我尝试使用以下论文来改进我的代理的学习https://arxiv.org/pdf/1511.05952.pdf
虽然它似乎在确定性环境中工作得很好,但我觉得它实际上会使它在随机环境中变得更糟。
假设对于状态 S_w 的动作 A_w,我们有 50% 的机会获得 +1000000 的奖励和 50% 的机会获得 -1000000 的奖励(在其他状态下可以忽略不计的确定性奖励)。因此,该动作的真实 Q 值将是 0。
在对任何一个可能的样本进行训练时(假设这两种情况都在回放内存中),这些样本的优先级将设置为 1000000,因此为即将到来的更新选择这些样本的概率将趋于 1(它们中的每一个如果我们不将新样本添加到重放内存中,则在 0 和 1 之间振荡。
因此,其他样本将永远不会被训练。
我的问题是:我们如何处理它?我应该在这样的环境中简单地放弃使用这种技术吗?