2

我刚刚开始学习 Q-learning,并看到使用 Q-learning 解决我的问题的可能性。

问题:我应该检测某种数据组合,我有四个矩阵作为系统的输入,我已经对输入进行了分类(每个输入可以是低 (L) 或高 (H) )。我需要检测某些类型的输入,例如 LLLH、LLHH、HHHH 等

注意:1)LLLH表示L中的第一个输入,第二个输入是L,第三个输入是L,第四个输入是H!2)我已将每种类型的输入类型标记为状态,例如 LLLL 是状态 1,LLLH 是状态 2,依此类推。

我在 Q-learning 中研究的是,大多数时候你有一个目标(只有一个状态作为目标),这使得代理更容易从 R-matrix 学习和创建 Q-matrix。现在在我的问题中我有很多目标(许多状态作为目标并且需要被检测到)。我不知道如何设计状态,如何通过有很多目标来创建奖励矩阵以及代理将如何学习。你能帮我在这种情况下如何使用 Q-learning。考虑到我在 20 多个州有 16 个进球!

正如我上面提到的,我知道什么是 q-learning,状态和目标是如何工作的,Q_matrix 的计算(它是如何学习的)......但问题是现在我有很多目标,我真的不知道如何将我的问题与 q-learning 联系起来。我需要多少个状态,以及如何标记奖励,因为我有很多目标。

我至少需要有关如何创建具有多个目标的奖励矩阵的帮助

4

2 回答 2

0

我至少需要有关如何创建具有多个目标的奖励矩阵的帮助

最简单的方法是对每个目标进行奖励,然后对这些奖励进行加权求和,得出总奖励。

Rtot = w1 * R1 + w2 * R2 + ... + wn * Rn

然后,您可以决定如何权衡每个奖励,它会影响代理的最终行为,因为每次它尝试学习不同的东西。

还有更复杂的方法称为“多维奖励强化学习”或“多标准强化学习”。你可以谷歌他们并找到相关的论文。

于 2013-12-26T23:27:24.287 回答
0

正在研究多个目标,因为它确实解决了一些关键的 RL 问题。

这是一篇很棒的文章,其目标是运送包裹或给电池充电……如果您不充电,则交付将失败,但如果您不断充电,则不会进行任何交付。这是这两个重要目标之间的平衡。

作者为你讲解TensorFlow中的逻辑和方法: https ://www.oreilly.com/ideas/reinforcement-learning-for-complex-goals-using-tensorflow

于 2017-11-17T20:13:58.283 回答