基本上,对游戏进行评估的最佳做法是:
- 玩游戏- 试着看看你试图避免哪些情况,哪些是好的。尝试将这些情况制定为一般评估。
- 研究——有人可能已经研究过这个或类似的问题,如果是这样的话——也许有一些文章或其他材料暗示了一些启发式函数。
我要做的如下:
- 创建一组启发式函数,每个函数都描述游戏的一个方面(与最近敌人的距离、敌人的火线、我的生命值条……)。我会玩这个游戏来尽可能地扩展这个列表,当然也会在网上寻找其他人可能会为这个/类似游戏找到的想法。
- 从第一步开始,我们实际上得到了一组函数:
h_1(board),h_2(board),...,h_n(board)
- 但我们仍然不知道我们的启发式函数是什么
- 我会尝试找到一些参数
a_1,a_2,...,a_n
,并创建我的启发式函数:
h(board) = a_1 * h_1(board) + a_2 * h_2(board) + ... + a_n * h_n(board
现在的问题是 - 如何获取这些参数。请注意,现在我们有一个优化问题。
这个特定问题的一个解决方案是蒙特卡洛学习。
蒙特卡洛学习:
蒙特卡洛学习的想法是创建一个代理列表(AI),每个代理都用一些随机值初始化a_1,...,a_n
- 并在它们之间进行比赛。
比赛结束后a_1,...,a_n
,根据表现最好的代理更改每个代理的值,然后重新运行比赛。(一种方法类似于遗传算法中的“生成”步骤- 交叉和突变,但还有其他方法)。
最后——蒙特卡洛学习过程应该给你很好的价值a_1,...,a_n
——这将为你提供一个很好的启发式功能。