machine-learning - 没有最终状态的 Q 学习是否可能？

Question

我必须用 Q-learning 来解决这个问题。好吧，实际上我必须评估一个基于 Q-learning 的策略。

我是一名旅游经理。

我有n家酒店，每家可以容纳不同数量的人。

对于我入住酒店的每个人，我都会根据我选择的房间获得奖励。

如果我愿意，我也可以谋杀这个人，所以它不会进入酒店，但它会给我不同的奖励。（好吧，那是个玩笑……但这是说我可以进行自我转换。所以我房间里的人数在那个动作之后不会改变）。

我的状态是一个向量，包含每家酒店的人数。
我的动作是零和一的向量，它告诉我
将新人放在哪里。
我的奖励矩阵是由我
在状态之间的每次转换（甚至是自我转换）中获得的奖励形成的。

现在，因为我可以获得无限数量的人（即我可以填充它但我可以继续杀死他们）我如何构建 Q 矩阵？没有 Q 矩阵，我无法获得政策，所以我无法评估它......

我看错了什么？我应该选择一个随机状态作为最终状态吗？我是否完全错过了重点？

score 3 · Accepted Answer

这个问题很老，但我认为值得回答。

其中一个问题是不一定有情节的概念和相应的终端状态。相反，这是一个持续存在的问题。您的目标是在未来永远最大化您的奖励。在这种情况下，折扣因子 gamma 小于 1，它基本上指定了您在每一步中对未来的展望。回报被指定为未来奖励的累积贴现总和。对于情节问题，通常使用 1 的折扣，回报是未来奖励的累积总和，直到达到情节结束。

要学习最优 Q，即遵循最优策略的预期回报，您必须有一种方法来执行离策略 Q 学习更新。如果您使用样本转换来获取 Q-learning 更新，那么您将必须指定在环境中采取行动以获取这些样本的行为策略。要了解有关 Q-learning 的更多信息，您应该阅读标准的入门 RL 教科书：“强化学习：简介”，Sutton 和 Barto。

score 1 · Accepted Answer

RL 问题本身不需要最终状态。他们需要的是奖励状态。所以，只要你有一些奖励，你就可以走了，我想。

我没有很多像这样的 RL 问题的 XP。正如评论者所说，这听起来像是一个非常巨大的状态空间。如果您对使用离散方法感到满意，您将获得一个良好的开端并通过限制问题的范围（有限数量的人和酒店/房间）并在较小的状态矩阵上放松 Q 学习来了解您的问题.

或者，您可以直接跳入一种可以处理无限状态空间的方法，例如神经网络。

根据我的经验，如果您有耐心先尝试较小的问题，您将为接下来解决较大的问题做好更好的准备。

score 1 · Accepted Answer

也许这不是“可能吗？”的答案，但是……阅读 r-learning，为了解决这个特定问题，您可能不仅要学习 Q 或 V 函数，还要学习 rho - 预期奖励随着时间的推移。Q 和 rho 的联合学习会产生更好的策略。

score 1 · Accepted Answer

要使用无限状态空间迭代上述响应，您绝对应该考虑对您的 Q 函数进行某种泛化。您将在无限空间中从 Q 函数响应中获得更多价值。您可以尝试几种不同的函数逼近，无论是简单的线性回归还是神经网络。

就像玛莎说的那样，你需要一个小于 1 的伽马来解释无限的地平线。否则，您将尝试确定 N 个全部等于无穷大的策略的适应度，这意味着您将无法测量最优策略。

我想在这里补充的主要内容是对于以后阅读本文的人来说，奖励塑造的重要性。在一个没有最终大奖励的无限问题中，可能会出现次优的奖励循环，代理会“卡住”，因为某个状态的奖励可能比有限范围内的任何邻居都高（由伽玛定义）。考虑到这一点，您需要确保惩罚代理多次进入相同的状态，以避免这些次优循环。显然，探索也非常重要，当问题无穷无尽时，总是需要一些探索。

machine-learning - 没有最终状态的 Q 学习是否可能？

4 回答 4

Related

Reference