2

我必须用 Q-learning 来解决这个问题。好吧,实际上我必须评估一个基于 Q-learning 的策略。

我是一名旅游经理。

我有n家酒店,每家可以容纳不同数量的人。

对于我入住酒店的每个人,我都会根据我选择的房间获得奖励。

如果我愿意,我也可以谋杀这个人,所以它不会进入酒店,但它会给我不同的奖励。(好吧,那是个玩笑……但这是说我可以进行自我转换。所以我房间里的人数在那个动作之后不会改变)。

  • 我的状态是一个向量,包含每家酒店的人数。

  • 我的动作是零和一的向量,它告诉我
    将新人放在哪里。

  • 我的奖励矩阵是由我
    在状态之间的每次转换(甚至是自我转换)中获得的奖励形成的。

现在,因为我可以获得无限数量的人(即我可以填充它但我可以继续杀死他们)我如何构建 Q 矩阵?没有 Q 矩阵,我无法获得政策,所以我无法评估它......

我看错了什么?我应该选择一个随机状态作为最终状态吗?我是否完全错过了重点?

4

4 回答 4

3

这个问题很老,但我认为值得回答。

其中一个问题是不一定有情节的概念和相应的终端状态。相反,这是一个持续存在的问题。您的目标是在未来永远最大化您的奖励。在这种情况下,折扣因子 gamma 小于 1,它基本上指定了您在每一步中对未来的展望。回报被指定为未来奖励的累积贴现总和。对于情节问题,通常使用 1 的折扣,回报是未来奖励的累积总和,直到达到情节结束。

要学习最优 Q,即遵循最优策略的预期回报,您必须有一种方法来执行离策略 Q 学习更新。如果您使用样本转换来获取 Q-learning 更新,那么您将必须指定在环境中采取行动以获取这些样本的行为策略。要了解有关 Q-learning 的更多信息,您应该阅读标准的入门 RL 教科书:“强化学习:简介”,Sutton 和 Barto。

于 2016-06-09T14:35:42.973 回答
1

RL 问题本身不需要最终状态。他们需要的是奖励状态。所以,只要你有一些奖励,你就可以走了,我想。

我没有很多像这样的 RL 问题的 XP。正如评论者所说,这听起来像是一个非常巨大的状态空间。如果您对使用离散方法感到满意,您将获得一个良好的开端并通过限制问题的范围(有限数量的人和酒店/房间)并在较小的状态矩阵上放松 Q 学习来了解您的问题.

或者,您可以直接跳入一种可以处理无限状态空间的方法,例如神经网络。

根据我的经验,如果您有耐心先尝试较小的问题,您将为接下来解决较大的问题做好更好的准备。

于 2014-04-23T13:36:46.040 回答
1

也许这不是“可能吗?”的答案,但是……阅读 r-learning,为了解决这个特定问题,您可能不仅要学习 Q 或 V 函数,还要学习 rho - 预期奖励随着时间的推移。Q 和 rho 的联合学习会产生更好的策略。

于 2016-04-04T21:12:07.837 回答
1

要使用无限状态空间迭代上述响应,您绝对应该考虑对您的 Q 函数进行某种泛化。您将在无限空间中从 Q 函数响应中获得更多价值。您可以尝试几种不同的函数逼近,无论是简单的线性回归还是神经网络。

就像玛莎说的那样,你需要一个小于 1 的伽马来解释无限的地平线。否则,您将尝试确定 N 个全部等于无穷大的策略的适应度,这意味着您将无法测量最优策略。

我想在这里补充的主要内容是对于以后阅读本文的人来说,奖励塑造的重要性。在一个没有最终大奖励的无限问题中,可能会出现次优的奖励循环,代理会“卡住”,因为某个状态的奖励可能比有限范围内的任何邻居都高(由伽玛定义)。考虑到这一点,您需要确保惩罚代理多次进入相同的状态,以避免这些次优循环。显然,探索也非常重要,当问题无穷无尽时,总是需要一些探索。

于 2017-05-09T14:21:24.133 回答