3

我正在研究 t=1,...,40 个周期的有限视野决策问题。在每个时间步 t 中,(唯一的)代理必须选择一个动作 a(t) ∈ A(t),而代理处于状态 s(t) ∈ S(t)。在状态 s(t) 中选择的动作 a(t) 会影响到下一个状态 s(t+1) 的转换。所以存在有限视界马尔可夫决策问题。

在我的情况下,以下情况成立:A(t)=A 和 S(t)=S,而 A 的大小为 6 000 000,S 的大小为 10^8。此外,转换函数是随机的。

由于我对蒙特卡洛树搜索 (MCTS) 的理论比较陌生,所以我问自己:MCTS 是否适合我的问题(特别是由于 A 和 S 的大小以及随机转换函数?)

我已经阅读了很多关于 MCTS 的论文(例如渐进式加宽和双渐进式加宽,听起来很有希望),但也许有人可以告诉我他将 MCTS 应用于类似问题的经验或解决此问题的适当方法(大状态/动作空间和随机转换函数)。

4

1 回答 1

1

每个状态有 600 万个随机动作,我认为任何类型的模拟都无法真正区分这些动作,而不会基本上永远运行。

100 个 MM 状态并不多,但是,您可以将所有这些状态的值存储在不到 1 GB 的内存中,并且像值迭代或策略迭代这样的东西可以更快地解决这个问题。

于 2019-01-12T17:27:24.680 回答