python-3.x - MDP 关于在 Python 中做出决定

问问题 2021-10-05T10:04:36.230

23 次

我渴望在以下方面应用马尔可夫决策过程：

在钢铁厂的炼钢车间使用铁管。随着时间的推移，这些管道会生锈。添加防锈液可以延缓生锈过程。如果生锈过多，我们必须机械清洁管道。

我将生锈状态分类为 StateA、StateB、StateC、StateD，生锈从 A 到 D

    StateA -> StateB -> StateC -> StateD
                 |         |         |
                 V         V         V
                Clean     Clean     Clean

我们可以采取两种可能的行动：

无需维护
添加防锈剂

从 StateA 到 StateB 的转移概率为 0.6，无需维护

加入防锈剂后，StateA 到 StateB 的转移概率为 0.5

从 StateB 到 StateC 的转移概率为 0.7，无需维护

加入防锈剂后，StateB 到 StateC 的转移概率为 0.6

从 StateC 到 StateD 的转移概率为 0.8，无需维护

使用防锈剂从 StateC 到 StateD 的转移概率为 0.7

StateA 的奖励是 0.3，StateB 是 0.4 StateC 是 0.5，StateD 是 0.6 Clean 本身就是一个状态。清洁状态的奖励是 0.2

我是 MDP 的新手。如果有人可以帮助我决定何时应该通过 python 实现通过 MDP 进行清理，那将会很有帮助？在 StateB 清洁，在 StateC 清洁，在 StateD 清洁

python-3.x - MDP 关于在 Python 中做出决定

0 回答 0

Related

Reference