伽玛值大或小对算法有什么影响?在我的光学系统中,只要它既不是 0 也不是 1,它的工作方式应该完全相同。另一方面,无论我选择什么伽玛,似乎 Qvalues 很快就接近于零(我在快速测试中得到了大约 10^-300 的值)。考虑到这个问题,人们通常如何绘制 Qvalues(我正在为那个状态绘制一个 (x, y, best QValue))?我正在尝试使用对数,但即便如此感觉有点尴尬。
另外,我不明白 Q Learning 更新函数中具有和 alpha 参数的原因是什么。它基本上设置了我们将对 Q 值函数进行的更新幅度。我认为它通常会随着时间的推移而减少。让它随着时间的推移而减少的兴趣是什么?一开始的更新值应该比之后的 1000 集更重要?
另外,我认为每次代理不想执行贪婪动作时探索状态空间的一个好主意是探索仍然具有零 QValue 的任何状态(这意味着,至少在大多数情况下,以前从未做过的状态),但我没有看到任何文献中提到过。这有什么缺点吗?我知道这不能与(至少某些)泛化函数一起使用。
另一个想法是保留一张已访问状态/动作的表格,并尝试执行之前在该状态下尝试次数较少的动作。当然,这只能在相对较小的状态空间中完成(在我的情况下这绝对是可能的)。
探索过程后期的第三个想法是不仅要查看所选动作以寻找最佳 qvalues,还要查看所有可能的动作和该状态的内部,然后查看该状态的其他动作等等。
我知道这些问题有点不相关,但我想听听以前曾与此相关的人的意见,并且(可能)也曾与他们中的一些人斗争过。