任何人都可以澄清一下(因为我在任何地方都没有找到任何明确的例子)MCTS算法为第二个玩家迭代。
我看起来的一切似乎都在玩,例如每次都在玩 P1 移动。我了解一个代理的步骤,但我从来没有找到任何显示 P2 放置计数器的代码的东西,这在生长树时肯定会发生。
基本上我希望:
对于每个迭代:
选择节点 Player1 展开 Player1
选择节点 Player2 展开播放器 2
推出反向传播
下一次迭代
这是正确的吗??有人可以拼出一些伪代码来显示吗?无论是迭代还是递归,我都不介意。
谢谢你的帮助。