关于井字游戏 MCTS 的 hello world 示例的简单问题,
假设我们有一个董事会,我们想要做出最佳决策。因为我不明白在模拟(直到遇到叶子)时连续节点的选择是由探索/利用权衡函数(如维基百科所述)决定的。我真的很想知道这里函数的第一个组件(利用)背后的直觉是什么,特别是对于两个目标相反的玩家之间的游戏。那么“最有希望”的含义会根据谁出手而改变。这个功能不应该根据谁做出下一步行动(尤其是它的第一个组件)而改变吗?
关于井字游戏 MCTS 的 hello world 示例的简单问题,
假设我们有一个董事会,我们想要做出最佳决策。因为我不明白在模拟(直到遇到叶子)时连续节点的选择是由探索/利用权衡函数(如维基百科所述)决定的。我真的很想知道这里函数的第一个组件(利用)背后的直觉是什么,特别是对于两个目标相反的玩家之间的游戏。那么“最有希望”的含义会根据谁出手而改变。这个功能不应该根据谁做出下一步行动(尤其是它的第一个组件)而改变吗?