reinforcement-learning - 简而言之，强化学习中的策略梯度算法中的目标网络是什么？

Question

它与常规网络有何不同 Source Text --> “在 DDPG 算法中，拓扑由每个网络的两个网络权重副本组成，（参与者：常规和目标）和（批评者：常规和目标）”

score 3 · Accepted Answer

抱歉，但恐怕你必须在这里看一下 DDPG 算法的数学才能理解为什么它被称为“目标网络”。DDPG 最小化以下损失（来自原始论文https://arxiv.org/pdf/1509.02971.pdf）：

其中Q由您的神经网络代表。你的“代理人”和y就是所谓的目标。它被称为target，因为您希望代理的值接近它。只是为了澄清：Q(s_t, a_t | theta)对应于您的代理在时间步t的输出，给定状态s、动作a和网络权重theta。

但是，如您所见，目标y取决于您的代理的相同（神经网络）参数 theta。在实践中，当最小化上述损失时，这种依赖性会导致不稳定。

缓解此问题的一个技巧是使用“第二个”目标网络，其中目标网络是

代理（“常规”）网络的冻结状态，并且每隔固定数量的步骤（例如每 10,000 次迭代）从常规网络复制一次。这是在 DQN 中采用的方法。
或实际代理（“常规”）网络的滞后版本，其中滞后是通过所谓的 polyak 平均实现的。也就是说，不是通过复制常规网络的权重来更新目标网络的权重，而是在每次迭代时采用某种加权平均值。这是 DDPG 中采用的方法。

简单地说，目标网络只不过是常规网络的滞后版本。

1 回答 1