我对批处理和增长批处理 q 学习之间的区别感到困惑。另外,如果我只有历史数据,我可以实现增长batch q learning吗?
谢谢!
我对批处理和增长批处理 q 学习之间的区别感到困惑。另外,如果我只有历史数据,我可以实现增长batch q learning吗?
谢谢!
在批量 Q 学习中,您只有历史数据,不可能按照给定的策略获取新数据。相反,在增长批量 Q-learning 中,算法几乎是相等的,不同之处在于在某些迭代中,您使用中间策略来获取更多数据,从而使用新数据(包含探索)来增长数据批次。
因此,如果您只有历史数据,就不可能使用新数据来增加批次。即,在您的情况下,不可能实现增长的批量 Q 学习。
您可以在本书的第 2 章阅读详细说明:Wiering, Marco, y Martijn van Otterlo, eds。强化学习:最先进的。2012.ª 编。Springer, 2012.本章链接