我刚刚开始学习 Q-learning,并看到使用 Q-learning 解决我的问题的可能性。
问题:我应该检测某种数据组合,我有四个矩阵作为系统的输入,我已经对输入进行了分类(每个输入可以是低 (L) 或高 (H) )。我需要检测某些类型的输入,例如 LLLH、LLHH、HHHH 等
注意:1)LLLH表示L中的第一个输入,第二个输入是L,第三个输入是L,第四个输入是H!2)我已将每种类型的输入类型标记为状态,例如 LLLL 是状态 1,LLLH 是状态 2,依此类推。
我在 Q-learning 中研究的是,大多数时候你有一个目标(只有一个状态作为目标),这使得代理更容易从 R-matrix 学习和创建 Q-matrix。现在在我的问题中我有很多目标(许多状态作为目标并且需要被检测到)。我不知道如何设计状态,如何通过有很多目标来创建奖励矩阵以及代理将如何学习。你能帮我在这种情况下如何使用 Q-learning。考虑到我在 20 多个州有 16 个进球!
正如我上面提到的,我知道什么是 q-learning,状态和目标是如何工作的,Q_matrix 的计算(它是如何学习的)......但问题是现在我有很多目标,我真的不知道如何将我的问题与 q-learning 联系起来。我需要多少个状态,以及如何标记奖励,因为我有很多目标。
我至少需要有关如何创建具有多个目标的奖励矩阵的帮助