我正在使用蒙特卡罗树搜索实现一个播放 2048 的 AI。根据维基百科https://en.wikipedia.org/wiki/Monte_Carlo_tree_search和我在扩展步骤中检查的所有其他来源,您应该使用 UCB 公式来确定要访问的节点wi/ni + c*sqrt(ln(N)/ni)
。当最后的分数是0
或1
(赢或输)时,这个公式很有效,但是,这个公式在 2048 年不起作用,因为分数是一个介于0
和n
我们想要最大化的值。
当分数介于两者之间时,有谁知道哪个是 MCTS 中用于 UCB 的最佳公式0
,n
所以我可以在 2048 游戏中使用它?
谢谢你。