Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
已经证明,Q-Learning 算法收敛到最优策略的唯一 Qs。那么得出 Q-Learning 算法不会被过度训练的结论是否正确?
假设您可以无限访问整个数据(Q-learning 假设),世界上没有过度训练的概念。如果你不使用基于状态空间的“纯”Q-learning,而是使用一些近似器,如 Deep Q-learning,这可能会过度训练。缺乏这种属性来自不切实际的假设,通常不会满足(除非您的问题非常简单/很小)。