0 投票

2 回答

1841 浏览

machine-learning - Q-learning（多目标）

我刚刚开始学习 Q-learning，并看到使用 Q-learning 解决我的问题的可能性。

问题：我应该检测某种数据组合，我有四个矩阵作为系统的输入，我已经对输入进行了分类（每个输入可以是低 (L) 或高 (H) ）。我需要检测某些类型的输入，例如 LLLH、LLHH、HHHH 等

注意：1）LLLH表示L中的第一个输入，第二个输入是L，第三个输入是L，第四个输入是H！2）我已将每种类型的输入类型标记为状态，例如 LLLL 是状态 1，LLLH 是状态 2，依此类推。

我在 Q-learning 中研究的是，大多数时候你有一个目标（只有一个状态作为目标），这使得代理更容易从 R-matrix 学习和创建 Q-matrix。现在在我的问题中我有很多目标（许多状态作为目标并且需要被检测到）。我不知道如何设计状态，如何通过有很多目标来创建奖励矩阵以及代理将如何学习。你能帮我在这种情况下如何使用 Q-learning。考虑到我在 20 多个州有 16 个进球！

正如我上面提到的，我知道什么是 q-learning，状态和目标是如何工作的，Q_matrix 的计算（它是如何学习的）......但问题是现在我有很多目标，我真的不知道如何将我的问题与 q-learning 联系起来。我需要多少个状态，以及如何标记奖励，因为我有很多目标。

我至少需要有关如何创建具有多个目标的奖励矩阵的帮助

2013-11-14T22:37:51.850

0 投票

1 回答

1681 浏览

netlogo - 在 NetLogo 中实现强化学习（多智能体模型中的学习）

我正在考虑在我的模型中为不同类型的代理实施学习策略。老实说，我仍然不知道我应该先问什么样的问题或从哪里开始。

我有两种类型的代理，我希望他们通过经验来学习，他们有一组动作，根据可能发生的特定情况，每个动作都有不同的奖励。我是强化学习方法的新手，因此欢迎任何关于我应该问自己什么样的问题的建议:)

以下是我将如何提出我的问题：

代理人有一生，他们会跟踪一些对他们来说很重要的事情，这些指标对于不同的代理人来说是不同的，例如，一个代理人想要增加 A 另一个想要 B 超过 A。
状态是代理人生命周期中的点，他们有多个选择（我对状态没有明确的定义，因为它们可能会发生几次或根本不发生，因为代理人四处走动，他们可能永远不会面临某种情况）
奖励是代理可以从特定状态下的动作中获得的指标的增加或减少，并且代理不知道如果他选择另一个动作会得到什么收益。
增益不是恒定的，状态没有很好的定义，也没有一种状态到另一种状态的正式转换，
例如，代理可以决定与其中一个位于同一地点的代理（操作 1）或与同一位置的所有代理（操作 2）共享如果某些条件成立，则操作 A 将对该代理更有利，而在其他条件Action 2会有更高的reward；我的问题是我没有看到任何奖励未知的示例，因为在这种情况下共享还取决于其他代理的特征（这会影响奖励系统的条件），并且在不同的状态下会有所不同。

在我的模型中，动作和后续状态之间没有关系，这让我想知道在这种情况下考虑 RL 是否可以。

我希望在这里优化的是我的代理能够以更好的方式推理当前情况，而不仅仅是响应由其内部状态触发的需求。他们有一些性格可以定义他们的长期目标，并可以影响他们在不同情况下的决策，但我希望他们记住在某种情况下采取什么行动帮助他们增加了他们偏爱的长期目标。

netlogo reinforcement-learning agent-based-modeling q-learning

2014-01-15T12:32:23.197

0 投票

1 回答

2295 浏览