9

伽玛值大或小对算法有什么影响?在我的光学系统中,只要它既不是 0 也不是 1,它的工作方式应该完全相同。另一方面,无论我选择什么伽玛,似乎 Qvalues 很快就接近于零(我在快速测试中得到了大约 10^-300 的值)。考虑到这个问题,人们通常如何绘制 Qvalues(我正在为那个状态绘制一个 (x, y, best QValue))?我正在尝试使用对数,但即便如此感觉有点尴尬。

另外,我不明白 Q Learning 更新函数中具有和 alpha 参数的原因是什么。它基本上设置了我们将对 Q 值函数进行的更新幅度。我认为它通常会随着时间的推移而减少。让它随着时间的推移而减少的兴趣是什么?一开始的更新值应该比之后的 1000 集更重要?

另外,我认为每次代理不想执行贪婪动作时探索状态空间的一个好主意是探索仍然具有零 QValue 的任何状态(这意味着,至少在大多数情况下,以前从未做过的状态),但我没有看到任何文献中提到过。这有什么缺点吗?我知道这不能与(至少某些)泛化函数一起使用。

另一个想法是保留一张已访问状态/动作的表格,并尝试执行之前在该状态下尝试次数较少的动作。当然,这只能在相对较小的状态空间中完成(在我的情况下这绝对是可能的)。

探索过程后期的第三个想法是不仅要查看所选动作以寻找最佳 qvalues,还要查看所有可能的动作和该状态的内部,然后查看该状态的其他动作等等。

我知道这些问题有点不相关,但我想听听以前曾与此相关的人的意见,并且(可能)也曾与他们中的一些人斗争过。

4

3 回答 3

16

来自强化学习硕士候选人:

Alpha 是学习率。如果奖励或转移函数是随机的(随机的),那么 alpha 应该随时间变化,在无穷远处接近零。当两者之一或两者具有随机行为时,这与近似内积 (T(transition)*R(reward)) 的预期结果有关。

这个事实很重要。

Gamma 是未来奖励的价值。它会对学习产生很大影响,可以是动态的或静态的值。如果它等于 1,则智能体对未来奖励的估值与当前奖励一样多。这意味着,在十个动作中,如果一个代理做了一些好事,这与直接做这个动作一样有价值。因此,在高伽马值下学习效果不佳。

相反,伽玛为零将导致代理只重视即时奖励,这仅适用于非常详细的奖励函数。

另外 - 至于探索行为......实际上有大量的文献。您的所有想法都已 100% 尝试过。我建议进行更详细的搜索,甚至开始搜索决策理论和“政策改进”。

只需在 Alpha 上添加一个注释:假设您有一个奖励函数,它为某个状态动作组合 SA 输出 1 或 0。现在每次执行 SA 时,您将得到 1 或 0。如果将 alpha 保持为 1,您将获得 1 或零的 Q 值。如果它是 0.5,您将得到 +0.5 或 0 的值,并且该函数将永远在这两个值之间振荡。但是,如果每次将 alpha 值降低 50%,就会得到这样的值。(假设收到的奖励是 1,0,1,0,...)。你的 Q 值最终会是 1,0.5,0.75,0.9,0.8,.... 最终会收敛到接近 0.5。在无穷大时,它将是 0.5,这是概率意义上的预期奖励。

于 2013-08-31T00:35:26.567 回答
1

伽玛值大或小对算法有什么影响?

伽马应该对应于观察空间的大小:对于大状态空间,您应该使用较大的伽马(即接近 1),而对于较小的空间,您应该使用较小的伽马。

考虑 gamma 的一种方式是它代表了从最终成功状态开始奖励的衰减率。

于 2017-10-25T12:19:50.907 回答
-3

我以前没有使用过完全像这样的系统,所以我不知道我能有多大用处,但是......

Gamma 衡量智能体期待未来奖励的倾向。它越小,代理就越倾向于采取具有最大奖励的行动,而不管结果状态如何。具有较大 gamma 的智能体将学习获得丰厚回报的漫长路径。至于所有接近零的 Q 值,您是否尝试过使用 gamma=0 的非常简单的状态图(例如,一个状态和两个动作)?这应该很快接近 Q=reward。

降低 alpha 的想法是抑制 Q 值的波动,以便智能体可以在狂野青年之后进入稳定的模式。

探索状态空间?为什么不只是迭代它,让代理尝试一切?没有理由让智能体在其学习过程中实际遵循一个行动过程——除非那是你模拟的重点。如果这个想法只是为了找到最佳行为模式,请调整所有 Q,而不仅仅是沿路径的最高 Q。

于 2009-12-07T21:27:46.283 回答