1

好的,我基本上了解 MCTS 如何与节点选择等一起工作。我不明白的是随机推出阶段。我随机模拟未来的游戏步骤直到它以输赢结束,这是否正确?对于具有许多状态和可能的动作以及未知敌人动作的更复杂的游戏,推出是否需要很长时间?如果你随机推出敌人的动作直到你到达游戏结束,那么随机返回输赢不是很好吗?如果有人可以用一个简单的例子(比如 3 步或 4 步游戏)来解释推出阶段,我会很高兴。

提前致谢。

4

1 回答 1

4

模拟随机游戏比随机返回输赢更能提供信息。

想象一个井字棋盘,其中一种颜色不能再获胜,但另一种颜色可以。显然,随机推出可以揭示这一事实。

此外,样本返回某个结果的概率通常包含实际信息。赢得所有随机游戏的 90% 的情况可能比仅赢得所有随机游戏的 10% 的情况更可取。当然,这不能一概而论。只有在播放了一个正确的响应时,一个分支才可能包含某种胜利——而同一分支可能具有许多可能的失败路径。

MCTS 的一项可能改进是比随机播放更智能。

于 2013-01-08T10:58:59.730 回答