3

关于井字游戏 MCTS 的 hello world 示例的简单问题,

假设我们有一个董事会,我们想要做出最佳决策。因为我不明白在模拟(直到遇到叶子)时连续节点的选择是由探索/利用权衡函数(如维基百科所述)决定的。我真的很想知道这里函数的第一个组件(利用)背后的直觉是什么,特别是对于两个目标相反的玩家之间的游戏。那么“最有希望”的含义会根据谁出手而改变。这个功能不应该根据谁做出下一步行动(尤其是它的第一个组件)而改变吗?

4

1 回答 1

3

是的,应该实施等式的利用部分,以考虑从在该节点中选择动作的代理/玩家的角度进行的评估。

对于单代理设置,实现很简单;总是最大化。

对于零和、回合制、两人游戏设置,您可能希望在最大化或最小化等式的开发部分之间交替(注意:始终最大化探索项!)。这也可以通过简单地将该术语乘以-1对手移动的节点来实现。

其他设置也是可能的,但需要更多的实施工作(例如,在非零和或有两个以上玩家的设置中为不同玩家保持不同的平均分数)

于 2018-02-12T16:50:46.520 回答