我刚开始尝试使用 minimax/negamax 算法,我想出了一个对我来说听起来不错的想法,但由于没有人使用它,这可能是一个有缺陷的逻辑。
我们为什么不这样做:
创建一个 depth=x 的三,确定要走哪一步,然后等待我们的对手。在他完成他的动作之后,我们可以只取我们已经评估过的动作的子树,并在使用旧节点的同时继续更深地构建它。我们可以使用已经评估过的节点值,并用来自新的更深节点的新值对它们进行加权。
尽管新值可能不像通常的方法那样精确,但我们可以更深入地从中获利。
我为我的错误书面和非结构化问题道歉,但我希望你能理解我的想法。