在DQN上的 OpenAI 基线代码中,tf.stop_gradient
在构建操作图期间用于目标网络的 q 值,以防止目标 q 值对最小化损失的贡献。(第 213 行)
但是,在调用 时minimize
,var_list
仅将 指定为tf.Variable
在被优化的 q 网络下的具有范围的变量,不包括在目标 q 网络下的具有范围的变量。(第 223 行)
我不确定他们为什么两者都做。这两种方法似乎达到了相同的结果。
在DQN上的 OpenAI 基线代码中,tf.stop_gradient
在构建操作图期间用于目标网络的 q 值,以防止目标 q 值对最小化损失的贡献。(第 213 行)
但是,在调用 时minimize
,var_list
仅将 指定为tf.Variable
在被优化的 q 网络下的具有范围的变量,不包括在目标 q 网络下的具有范围的变量。(第 223 行)
我不确定他们为什么两者都做。这两种方法似乎达到了相同的结果。