我必须用 Q-learning 来解决这个问题。好吧,实际上我必须评估一个基于 Q-learning 的策略。
我是一名旅游经理。
我有n家酒店,每家可以容纳不同数量的人。
对于我入住酒店的每个人,我都会根据我选择的房间获得奖励。
如果我愿意,我也可以谋杀这个人,所以它不会进入酒店,但它会给我不同的奖励。(好吧,那是个玩笑……但这是说我可以进行自我转换。所以我房间里的人数在那个动作之后不会改变)。
我的状态是一个向量,包含每家酒店的人数。
我的动作是零和一的向量,它告诉我
将新人放在哪里。- 我的奖励矩阵是由我
在状态之间的每次转换(甚至是自我转换)中获得的奖励形成的。
现在,因为我可以获得无限数量的人(即我可以填充它但我可以继续杀死他们)我如何构建 Q 矩阵?没有 Q 矩阵,我无法获得政策,所以我无法评估它......
我看错了什么?我应该选择一个随机状态作为最终状态吗?我是否完全错过了重点?