Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
为什么 dqn 算法只执行一个梯度下降步骤,即只训练一个 epoch?它不会从更多的时期中受益吗,它的准确性不会随着更多的时期而提高吗?
时间效率。
理论上,在策略迭代/评估方案中,您应该等到收敛后再进行下一次更新。然而,这可能(a)永远不会发生,(b)需要太多。因此,人们通常会以较小的学习率执行一步,以希望批评者 (Q) 不会“太错误”。
你可以尝试更多的步骤,但一般来说,做多少渐变步骤是设计选择,他们可能发现这样效果最好。