python - 使用 MDP 进行强化学习以优化收入

Question

我想将飞机上出售座位的服务建模为 MDP（马尔可夫决策过程），以使用强化学习来优化航空公司的收入，因为我需要定义什么是：状态、行动、政策、价值和奖励。我稍微想了一下，但我觉得还是少了点什么。

我这样建模我的系统：

States = (r,c)其中 r 是乘客人数， c 是购买的座位数r>=c。
Actions = (p1,p2,p3)这是3个价格。目标是决定其中哪一个能带来更多收入。
奖励：收入。

你能告诉我你的想法并帮助我吗？

在建模之后，我必须通过强化学习来实现所有这些。有一个包可以完成这项工作吗？

score 0 · Accepted Answer

我认为你的表述中最大的缺失是顺序部分。强化学习在顺序使用时很有用，其中下一个状态必须依赖于当前状态（因此是“马尔可夫”）。在这个公式中，您根本没有指定任何马尔可夫行为。此外，奖励是一个标量，它取决于当前状态或当前状态和动作的组合。在您的情况下，收入取决于价格（行动），但与状态（座位）无关。这是我在您的表述中看到的两个大问题，还有其他问题。我会建议你先阅读 RL 理论（在线课程等）并写一些示例问题，然后再尝试制定自己的问题。

python - 使用 MDP 进行强化学习以优化收入

1 回答 1

Related

Reference