在 Wikipedia 中描述的 mcts 算法中,它在每个节点选择中只执行一次播放(模拟)。现在,我正在一个简单的 connect-k 游戏中试验这个算法。我想知道,在实践中,我们是否会进行更多的播放以减少差异?
我用一个随机播放(无偏见)尝试了原始算法。与我使用 alpha-beta 修剪的启发式搜索相比,结果很糟糕。它收敛得非常缓慢。相反,当我执行 500 次播放时,噪音要小得多。但是,每个节点模拟对于算法来说太慢了,无法在给定时间内探索树的其他部分,因此有时会错过最关键的移动。
然后我将 AMAF(尤其是 RAVE 转换)启发式添加到基本 MCTS。我没有注意到 500 场比赛有太大差异,也许是因为差异已经很低。我还没有分析 1 场比赛的结果。
谁能给我任何见解?