它与常规网络有何不同 Source Text --> “在 DDPG 算法中,拓扑由每个网络的两个网络权重副本组成,(参与者:常规和目标)和(批评者:常规和目标)”
问问题
924 次
1 回答
3
抱歉,但恐怕你必须在这里看一下 DDPG 算法的数学才能理解为什么它被称为“目标网络”。DDPG 最小化以下损失(来自原始论文https://arxiv.org/pdf/1509.02971.pdf):
其中Q由您的神经网络代表。你的“代理人”和y就是所谓的目标。它被称为target,因为您希望代理的值接近它。只是为了澄清:Q(s_t, a_t | theta)对应于您的代理在时间步t的输出,给定状态s、动作a和网络权重theta。
但是,如您所见,目标y取决于您的代理的相同(神经网络)参数 theta。在实践中,当最小化上述损失时,这种依赖性会导致不稳定。
缓解此问题的一个技巧是使用“第二个”目标网络,其中目标网络是
- 代理(“常规”)网络的冻结状态,并且每隔固定数量的步骤(例如每 10,000 次迭代)从常规网络复制一次。这是在 DQN 中采用的方法。
- 或实际代理(“常规”)网络的滞后版本,其中滞后是通过所谓的 polyak 平均实现的。也就是说,不是通过复制常规网络的权重来更新目标网络的权重,而是在每次迭代时采用某种加权平均值。这是 DDPG 中采用的方法。
简单地说,目标网络只不过是常规网络的滞后版本。
于 2020-02-02T17:33:49.230 回答