我已经为一个运行良好的 4 人游戏实现了 MCTS,但是当游戏结束移动在实际树中而不是在部署中时,我不确定我是否理解扩展。
一开始,游戏的赢/输位置只能在推出时找到,我知道如何对这些进行评分并将它们传播到树上。但是随着游戏的进行,我最终找到了一个由 UCB1 选择的无法扩展的叶节点,因为它是一个失败的位置,不允许任何移动,所以没有什么可以扩展,也没有游戏可以“推出”。目前,我只是将这作为最后一名剩余球员的“胜利”得分,并为他们反向传播胜利。
但是,当我查看访问统计信息时,该节点被重新访问了数千次,因此显然 UCB1 多次“选择”访问该节点,但这确实有点浪费,我是否应该反向传播其他东西而不是单个赢得这些“永远赢”的节点?
我已经在 Google 上进行了很好的搜索,但实际上找不到太多提及它,所以我是否误解了某些东西或遗漏了一些明显的东西,“标准”MCTS 教程/算法甚至都没有提到树中的游戏结束节点作为特殊情况,所以我担心我误解了一些基本的东西。