我的程序中有一个有效的 negamax 算法。但是,我需要该程序在时间之内找到最佳的移动方式kMaxTimePerMove
。我做了一些研究,似乎在我的 negamax 算法中使用迭代深化是最好的方法。现在,我开始搜索的函数如下所示:
// this is a global in the same scope as the alpha-beta functions, so they can check the elapsed time
clock_t tStart;
int IterativeDeepening(Board current_state)
{
bool overtime = false;
int depth = 0;
tStart = clock();
MoveHolder best_move(-1, kWorstEvaluation);
while ((static_cast<double> (clock() - tStart)/CLOCKS_PER_SEC) < kMaxTimePerMove)
{
MoveHolder temp_move = AlphaBetaRoot(kWorstEvaluation, -best_move.evaluation_,++depth, current_state, overtime);
if (!overtime)
best_move = temp_move;
}
return best_move.column_;
}
我认为我还应该将以前的最佳移动重新排序到子列表的前面,但是,我正在等待实现它,直到我得到基本版本的工作。实际的 Alpha-Beta 函数如下所示:
MoveHolder AlphaBetaRoot(int alpha, int beta, int remaining_depth, Board current_state, bool &overtime)
{
MoveHolder best(-1, -1);
if (overtime)
return MoveHolder(0,0);
std::vector<Board> current_children;
current_state.GetBoardChildren(current_children);
for (auto i : current_children)
{
best.evaluation_ = -AlphaBeta(-beta, -alpha, remaining_depth - 1, i, overtime);
if ((static_cast<double> (clock() - tStart)/CLOCKS_PER_SEC) > kMaxTimePerMove)
{
overtime = true;
return MoveHolder(0,0);
}
if (best.evaluation_ >= beta)
return best;
if (best.evaluation_ > alpha)
{
alpha = best.evaluation_;
best.column_ = i.GetLastMoveColumn();
}
}
return best;
}
int AlphaBeta(int alpha, int beta, int remaining_depth, Board2 current_state, bool &overtime)
{
if (overtime)
return 0;
if ((static_cast<double> (clock() - tStart)/CLOCKS_PER_SEC) > kMaxTimePerMove)
{
overtime = true;
return 0;
}
if (remaining_depth == 0 || current_state.GetCurrentResult() != kNoResult)
{
return current_state.GetToMove() * current_state.GetCurrentEvaluation();
}
std::vector<Board> current_children;
current_state.GetBoardChildren(current_children);
for (auto i : current_children)
{
int score = -AlphaBeta(-beta, -alpha, remaining_depth - 1, i, overtime);
if (score >= beta)
{
return beta;
}
if (score > alpha)
{
alpha = score;
}
}
return alpha;
}
当我尝试调试时,一切似乎都按预期工作。但是,当我将迭代深化版本与常规的 alpha-beta 实现进行对比时,它总是会失败。有时它似乎被“卡住”,并返回一个可怕的举动。
举个例子,如果这个程序被“强迫”在下一回合移动,否则对手会获胜,它不会阻止胜利。在那次移动中,它报告说它正在搜索深度为 38。我发现该算法极难调试,因为如果我中断执行,它会破坏时间。
我不确定我是否错误地实现了算法,或者只是这里有一个棘手的错误。如果有人能指出我正确的方向,我将不胜感激。