2

它与常规网络有何不同 Source Text --> “在 DDPG 算法中,拓扑由每个网络的两个网络权重副本组成,(参与者:常规和目标)和(批评者:常规和目标)”

4

1 回答 1

3

抱歉,但恐怕你必须在这里看一下 DDPG 算法的数学才能理解为什么它被称为“目标网络”。DDPG 最小化以下损失(来自原始论文https://arxiv.org/pdf/1509.02971.pdf):

在此处输入图像描述

其中Q由您的神经网络代表。你的“代理人”和y就是所谓的目标。它被称为target,因为您希望代理的值接近它。只是为了澄清:Q(s_t, a_t | theta)对应于您的代理在时间步t的输出,给定状态s、动作a和网络权重theta

但是,如您所见,目标y取决于您的代理的相同(神经网络)参数 theta。在实践中,当最小化上述损失时,这种依赖性会导致不稳定。

缓解此问题的一个技巧是使用“第二个”目标网络,其中目标网络是

  • 代理(“常规”)网络的冻结状态,并且每隔固定数量的步骤(例如每 10,000 次迭代)从常规网络复制一次。这是在 DQN 中采用的方法。
  • 或实际代理(“常规”)网络的滞后版本,其中滞后是通过所谓的 polyak 平均实现的。也就是说,不是通过复制常规网络的权重来更新目标网络的权重,而是在每次迭代时采用某种加权平均值。这是 DDPG 中采用的方法。

简单地说,目标网络只不过是常规网络的滞后版本。

于 2020-02-02T17:33:49.230 回答