reinforcement-learning - 为什么 Deep Q 网络算法只执行一个梯度下降步骤？

Question

为什么 dqn 算法只执行一个梯度下降步骤，即只训练一个 epoch？它不会从更多的时期中受益吗，它的准确性不会随着更多的时期而提高吗？

score 1 · Accepted Answer

时间效率。

理论上，在策略迭代/评估方案中，您应该等到收敛后再进行下一次更新。然而，这可能（a）永远不会发生，（b）需要太多。因此，人们通常会以较小的学习率执行一步，以希望批评者 (Q) 不会“太错误”。

你可以尝试更多的步骤，但一般来说，做多少渐变步骤是设计选择，他们可能发现这样效果最好。

1 回答 1