machine-learning - OpenAI 基线：为什么同时使用 `tf.stop_gradient` 和指定 `var_list`？

Question

在DQN上的 OpenAI 基线代码中，tf.stop_gradient在构建操作图期间用于目标网络的 q 值，以防止目标 q 值对最小化损失的贡献。（第 213 行）

但是，在调用时minimize，var_list仅将指定为tf.Variable在被优化的 q 网络下的具有范围的变量，不包括在目标 q 网络下的具有范围的变量。（第 223 行）

我不确定他们为什么两者都做。这两种方法似乎达到了相同的结果。

score 2 · Accepted Answer

这是多余的。IMO 代码读起来更好——您知道渐变不会流经该表达式，而且您确切知道哪些变量会受到影响。

一个确实足以达到同等效果。

1 回答 1