python - python中的MDP框架以做出最佳决策

Question

我试图将以下问题建模为马尔可夫决策过程。

在钢铁厂的炼钢车间，使用铁管。随着时间的推移，这些管道会生锈。添加防锈溶液可以延缓生锈过程。如果生锈过多，我们必须对管道进行机械清洁。

我将生锈状态分类为 StateA、StateB、StateC、StateD。从 A 到 E 锈蚀增加的 StateE。StateA 是绝对干净的状态，几乎没有生锈，StateE 是最生锈/退化的状态


       StateA      -----> StateB ---> StateC ---> StateD --->  StateE
 ∆    ∆   ∆   ∆              |           |          |             | 
 |    |   |   |              |           |          |             | 
Mnt  Mnt Mnt  Mnt            |           |          |             | 
 |    |   |    |____clean____|           |          |             | 
 |    |   |_______clean__________________|          |             | 
 |    |_____________________________________________|             | 
 |                          clean                                 | 
 |________________________________________________________________|
                              clean

We can take any one of the following transitions in the above diagram:
StateB -> clean -> StateA
StateC -> clean -> StateA
StateD -> clean -> StateA
StateE -> clean -> StateA

我们可以采取 3 种可能的行动：

无需维护
干净的
添加防锈剂

转移概率如下所述：状态从 StateA 降级到 StateE。状态随着生锈而退化，一定量的生锈由转移概率表示。添加防锈剂可降低状态退化的可能性

从 StateA 到 StateB 的转换概率为 0.6，无需维护从 StateA 到 StateB 的转换概率为 0.5，添加了防锈剂。

从 StateB 到 StateC 的转换概率为 0.7，无需维护从 StateB 到 StateC 的转换概率为 0.6，添加了防锈剂。

从 StateC 到 StateD 的转移概率为 0.8，无需维护。从 StateC 到 StateD 的转换概率为 0.7，使用防锈剂。

动作 clean 将以概率 1 将任何状态移动到状态 Mnt 。State Mnt 以概率 1 移动到 StateA（绝对清洁状态）。

StateA 的奖励是 0.6，StateB 是 0.5，StateC 是 0.4，StateD 是 0.3，StateE 是 0.2

清洁行动导致维护（Mnt）状态，该状态具有 0.1 奖励。维护状态会导致清洁后生产力提高，这很好，但维护时会停机，因此会有生产损失。所以奖励少。

如果有人可以帮助我在 python 中开发框架，那将会很有帮助。

We can take any one of the following : 
StateB -> clean -> StateA
StateC -> clean -> StateA
StateD -> clean -> StateA
StateE -> clean -> StateA

该框架应提供有助于决定是否在 StateB、StateC、StateD、StateE 采取清洁行动的输出。我们可以使用价值迭代来生成最优决策。

python - python中的MDP框架以做出最佳决策

0 回答 0

Related

Reference