0

我渴望在以下方面应用马尔可夫决策过程:

在钢铁厂的炼钢车间使用铁管。随着时间的推移,这些管道会生锈。添加防锈液可以延缓生锈过程。如果生锈过多,我们必须机械清洁管道。

我将生锈状态分类为 StateA、StateB、StateC、StateD,生锈从 A 到 D

    StateA -> StateB -> StateC -> StateD
                 |         |         |
                 V         V         V
                Clean     Clean     Clean
          

我们可以采取两种可能的行动:

  • 无需维护
  • 添加防锈剂

从 StateA 到 StateB 的转移概率为 0.6,无需维护

加入防锈剂后,StateA 到 StateB 的转移概率为 0.5

从 StateB 到 StateC 的转移概率为 0.7,无需维护

加入防锈剂后,StateB 到 StateC 的转移概率为 0.6

从 StateC 到 StateD 的转移概率为 0.8,无需维护

使用防锈剂从 StateC 到 StateD 的转移概率为 0.7

StateA 的奖励是 0.3,StateB 是 0.4 StateC 是 0.5,StateD 是 0.6 Clean 本身就是一个状态。清洁状态的奖励是 0.2

我是 MDP 的新手。如果有人可以帮助我决定何时应该通过 python 实现通过 MDP 进行清理,那将会很有帮助?在 StateB 清洁,在 StateC 清洁,在 StateD 清洁

4

0 回答 0