我正在为一个小游戏实现极小极大,并注意到我称之为“拖延”的东西。归结为一个非常简单的例子:
在夺旗游戏中,旗帜距离玩家 A 向上一格,而玩家 B 距离玩家 50 格。轮到A了,他可以向前搜索6步。我所看到的是所有可能的动作都有一个“赢”的价值,因为 A 知道他可以在 B 之前到达旗帜,即使他没有立即抓住它。因此,如果 UP 是顺序中的最后一步,他将向左和向右移动一段时间,直到 B 处于攻击距离之内,然后他必须最终拿到旗帜。
起初这种行为看起来像一个错误,但通过它我说服自己每一步确实是“胜利”,但行为并不好。我可以通过使从现在起 4 步后捕获的标志的价值低于现在捕获的标志来影响评估,但我想知道 minimax 搜索是否有比我遗漏的方面?有没有比后来才获得的同样高分更可取的高分概念?