Imran 的回答是正确的,因为从理论的角度来看,通常在MCTS的选择阶段使用的 UCB1 策略最终应该能够处理您描述的那种情况,并且 MCTS(假设我们使用类似 UCB1 的东西)选择阶段)最终会收敛到极小极大评估。
然而,“最终”在这里的意思是“经过无数次 MCTS 迭代”。我们需要无限量的处理时间,因为只有MCTS的选择阶段才能充分处理您描述的情况类型(播出阶段不能),而选择阶段实际上只用于树的缓慢增长部分围绕根节点。因此,如果您描述的情况“位于”相对靠近根节点的位置,那么我们可以预期像 UCB1 这样的策略可以充分处理它们。如果它们离根很深/很远,那么深以至于我们无法在我们拥有的处理时间内将搜索树长得那么远……那么 MCTS 确实不能很好地处理这些情况。
请注意,对于基于 minimax 的方法也可以这样说;如果他们没有设法进行足够深入的搜索,也可能导致评估不佳。不过,在类 minimax 算法的情况下,这个故事往往更加二进制;他们要么设法进行足够深入的搜索以获得良好的评估,要么没有。在 MCTS 的情况下,它最初对这些类型的情况的评估总是很差,随着搜索树的逐渐增长,它可能会逐渐改善。
在实践中,minimax/alpha-beta/相关算法被认为在具有许多“陷阱”情况的游戏中优于基于 MCTS 的方法大约整整十年,就像你描述的情况一样。这包括类似国际象棋的游戏。在同一时期,MCTS 已经在围棋等游戏中更有前途。仅在最近的一篇论文中,MCTS + 深度强化学习 + 大量硬件的组合在类似国际象棋的游戏中击败了基于 minimax 的方法。