我尝试实现井字游戏 hello-world MCTS 游戏播放器,但遇到了问题。
在模拟游戏并选择“最有前途”(利用/探索)节点时,我只考虑总获胜次数(“利用”部分) - 这会导致某些问题,产生的算法根本不是防御性的。因此,在选择时
- 导致(100 平;10 输)的移动
- 导致(1胜;109负)的移动
选择了最差的(1; 109),因为我的 uct 函数贪婪地计算平均胜利而不是“价值”。
我是否正确识别了这个问题?我应该从“平均获胜”切换到考虑所有结果类型的其他价值指标吗?
欢迎任何建议,谢谢