对于这个游戏,有一个 10x10 的棋盘和几个不同的奖品,数值从 1 到 9,有一些简单的机器人在玩,一个总是追求最接近的奖品,另一个总是追求点数最多的奖品分配给它。机器人和奖品随机放置在板上。任务是创建另一个简单的 AI,它总是收集最多的总点数并赢得比赛。
我将如何在奖励积分和奖励距离之间进行选择,以使这个新的 AI 始终赢得比赛?我在想我会更喜欢更接近的奖品,但如果它比最接近的奖品大 2 倍,那么我会选择更大的奖品,但这并不总是会赢。
机器人不知道机器人在哪里,如果一个机器人移动 8 个空格以获得一个奖品,另一个机器人可以移动 8 个空格并在此期间收集多个奖品。所有机器人同时移动并且可以对角移动。一旦棋盘上没有更多奖品,游戏就会结束。