artificial-intelligence - MonteCarloTreeSearch 是否适合这种问题规模（大动作/状态空间）？

Question

我正在研究 t=1,...,40 个周期的有限视野决策问题。在每个时间步 t 中，（唯一的）代理必须选择一个动作 a(t) ∈ A(t)，而代理处于状态 s(t) ∈ S(t)。在状态 s(t) 中选择的动作 a(t) 会影响到下一个状态 s(t+1) 的转换。所以存在有限视界马尔可夫决策问题。

在我的情况下，以下情况成立：A(t)=A 和 S(t)=S，而 A 的大小为 6 000 000，S 的大小为 10^8。此外，转换函数是随机的。

由于我对蒙特卡洛树搜索 (MCTS) 的理论比较陌生，所以我问自己：MCTS 是否适合我的问题（特别是由于 A 和 S 的大小以及随机转换函数？）

我已经阅读了很多关于 MCTS 的论文（例如渐进式加宽和双渐进式加宽，听起来很有希望），但也许有人可以告诉我他将 MCTS 应用于类似问题的经验或解决此问题的适当方法（大状态/动作空间和随机转换函数）。

score 1 · Accepted Answer

每个状态有 600 万个随机动作，我认为任何类型的模拟都无法真正区分这些动作，而不会基本上永远运行。

100 个 MM 状态并不多，但是，您可以将所有这些状态的值存储在不到 1 GB 的内存中，并且像值迭代或策略迭代这样的东西可以更快地解决这个问题。

1 回答 1