我正在考虑在我的模型中为不同类型的代理实施学习策略。老实说,我仍然不知道我应该先问什么样的问题或从哪里开始。
我有两种类型的代理,我希望他们通过经验来学习,他们有一组动作,根据可能发生的特定情况,每个动作都有不同的奖励。我是强化学习方法的新手,因此欢迎任何关于我应该问自己什么样的问题的建议:)
以下是我将如何提出我的问题:
- 代理人有一生,他们会跟踪一些对他们来说很重要的事情,这些指标对于不同的代理人来说是不同的,例如,一个代理人想要增加 A 另一个想要 B 超过 A。
- 状态是代理人生命周期中的点,他们有多个选择(我对状态没有明确的定义,因为它们可能会发生几次或根本不发生,因为代理人四处走动,他们可能永远不会面临某种情况)
- 奖励是代理可以从特定状态下的动作中获得的指标的增加或减少,并且代理不知道如果他选择另一个动作会得到什么收益。
- 增益不是恒定的,状态没有很好的定义,也没有一种状态到另一种状态的正式转换,
- 例如,代理可以决定与其中一个位于同一地点的代理(操作 1)或与同一位置的所有代理(操作 2)共享 如果某些条件成立,则操作 A 将对该代理更有利,而在其他条件Action 2会有更高的reward;我的问题是我没有看到任何奖励未知的示例,因为在这种情况下共享还取决于其他代理的特征(这会影响奖励系统的条件),并且在不同的状态下会有所不同。
在我的模型中,动作和后续状态之间没有关系,这让我想知道在这种情况下考虑 RL 是否可以。
我希望在这里优化的是我的代理能够以更好的方式推理当前情况,而不仅仅是响应由其内部状态触发的需求。他们有一些性格可以定义他们的长期目标,并可以影响他们在不同情况下的决策,但我希望他们记住在某种情况下采取什么行动帮助他们增加了他们偏爱的长期目标。