我渴望在以下方面应用马尔可夫决策过程:
在钢铁厂的炼钢车间使用铁管。随着时间的推移,这些管道会生锈。添加防锈液可以延缓生锈过程。如果生锈过多,我们必须机械清洁管道。
我将生锈状态分类为 StateA、StateB、StateC、StateD,生锈从 A 到 D
StateA -> StateB -> StateC -> StateD
| | |
V V V
Clean Clean Clean
我们可以采取两种可能的行动:
- 无需维护
- 添加防锈剂
从 StateA 到 StateB 的转移概率为 0.6,无需维护
加入防锈剂后,StateA 到 StateB 的转移概率为 0.5
从 StateB 到 StateC 的转移概率为 0.7,无需维护
加入防锈剂后,StateB 到 StateC 的转移概率为 0.6
从 StateC 到 StateD 的转移概率为 0.8,无需维护
使用防锈剂从 StateC 到 StateD 的转移概率为 0.7
StateA 的奖励是 0.3,StateB 是 0.4 StateC 是 0.5,StateD 是 0.6 Clean 本身就是一个状态。清洁状态的奖励是 0.2
我是 MDP 的新手。如果有人可以帮助我决定何时应该通过 python 实现通过 MDP 进行清理,那将会很有帮助?在 StateB 清洁,在 StateC 清洁,在 StateD 清洁