1

已经证明,Q-Learning 算法收敛到最优策略的唯一 Qs。那么得出 Q-Learning 算法不会被过度训练的结论是否正确?

4

1 回答 1

3

假设您可以无限访问整个数据(Q-learning 假设),世界上没有过度训练的概念。如果你不使用基于状态空间的“纯”Q-learning,而是使用一些近似器,如 Deep Q-learning,这可能会过度训练。缺乏这种属性来自不切实际的假设,通常不会满足(除非您的问题非常简单/很小)。

于 2016-09-04T20:03:57.300 回答