双QN背后的想法是什么?
用于计算 Q 值以更新在线网络的贝尔曼方程遵循以下方程:
value = reward + discount_factor * target_network.predict(next_state)[argmax(online_network.predict(next_state))]
用于计算原始 DQN 中 Q 值更新的贝尔曼方程为:
value = reward + discount_factor * max(target_network.predict(next_state))
但是用于评估动作的目标网络是使用 online_network 的权重更新的,并且馈送到目标值的值基本上是动作的旧 q 值。
任何想法如何根据第一个网络的权重添加另一个网络有帮助?