1

为什么 dqn 算法只执行一个梯度下降步骤,即只训练一个 epoch?它不会从更多的时期中受益吗,它的准确性不会随着更多的时期而提高吗?

4

1 回答 1

1

时间效率。

理论上,在策略迭代/评估方案中,您应该等到收敛后再进行下一次更新。然而,这可能(a)永远不会发生,(b)需要太多。因此,人们通常会以较小的学习率执行一步,以希望批评者 (Q) 不会“太错误”。

你可以尝试更多的步骤,但一般来说,做多少渐变步骤是设计选择,他们可能发现这样效果最好。

于 2019-12-22T09:42:28.290 回答