3

我一直在尝试使用多层感知器和反向传播为井字游戏编写 AI。我的想法是训练神经网络成为棋盘状态的准确评估函数,但问题是即使在分析了数千场游戏之后,网络也无法输出准确的评估。

我正在使用 27 个输入神经元;3x3 板上的每个方块都与三个输入神经元相关联,这些神经元接收值 0 或 1,具体取决于方块是否有 x、o 或空白。这 27 个输入神经元向 10 个隐藏神经元发送信号(我随意选择了 10 个,但我也尝试了 5 个和 15 个)。

对于训练,我已经让程序通过使用当前评估函数与自己对战来生成一系列游戏,从而为每一方选择被认为是最佳动作的动作。生成游戏后,NN 通过将给定棋盘状态的正确输出作为跟随它的棋盘状态的值(使用评估函数)来编译训练示例(包括棋盘状态和正确输出)。游戏顺序。我认为这是 Gerald Tesauro 在编写 TD-Gammon 时所做的,但我可能误解了这篇文章。(注意:我把更新权重的具体机制放在了这篇文章的底部)。

我尝试了不同的学习率值,以及不同数量的隐藏神经元,但似乎没有任何效果。即使经过数小时的“学习”,策略也没有明显的改进,评估功能也无法接近准确。

我意识到有更简单的方法来编程井字游戏,但我想用一个多层感知器来做,这样我以后可以将它应用到连接 4。这甚至可能吗?我开始认为对于具有合理数量的隐藏神经元的井字棋棋盘来说,没有可靠的评估函数。

我向你保证,我不是在寻找一些快速代码来完成家庭作业。我已经工作了一段时间没有成功,只是想知道我做错了什么。感谢所有建议。


这是我用于 NN 的特定机制:

27 个输入神经元中的每一个都接收一个 0 或 1,它通过可微 sigmoid 函数 1/(1+e^(-x))。每个输入神经元 i 发送这个输出(i.output),乘以某个权重(i.weights[h])到每个隐藏神经元 h。这些值的总和作为隐藏神经元 h (h.input) 的输入,该输入通过 sigmoid 形成每个隐藏神经元的输出 (h.output)。我将 lastInput 表示为所有隐藏神经元的 (h.output * h.weight) 之和。然后板的输出值是 sigmoid(lastInput)。

我将学习率表示为 alpha,将 err 表示为正确输出减去实际输出。我也让 dSigmoid(x) 等于 sigmoid 在点 x 的导数。

每个隐藏神经元 h 的权重增加值: (alpha*err*dSigmoid(lastInput)*h.output) 并且从给定输入神经元 i 到给定隐藏神经元 h 的信号的权重增加值: (alpha*err*dSigmoid(lastInput)*h.weight*dSigmoid(h.input)*i.output)。

我从这个关于反向传播的讲座中得到了这些公式:http ://www.youtube.com/watch?v=UnWL2w7Fuo8 。

4

4 回答 4

5

井字游戏有 3^9 = 19683 个状态(实际上,其中一些是不合法的,但数量级是正确的)。输出函数并不平滑,所以我认为反向传播网络可以做的最好的事情是“死记硬背”所有这些状态的查找表。

考虑到这一点,10 个隐藏的神经元看起来非常小,你不可能通过教几千个游戏来训练 20k 个不同的查找表条目。为此,网络必须从它被教导的状态“推断”到它从未见过的状态,我不知道它是如何做到这一点的。

于 2012-05-21T09:37:43.570 回答
0

您可能需要考虑多个隐藏层,以及增加隐藏层的大小。为了进行比较,Fogel 和 Chellapilla 使用了两层 40 和 10 个神经元来编程一个跳棋玩家,所以如果你需要更多的东西,那么可能会出现严重错误。

如果您还没有,您可能还想使用偏差输入。

您的基本方法似乎很合理,尽管我不是 100% 确定您的意思是什么:

After generating a game, the NN compiles training examples (which comprise a board state and the correct output) by taking the correct output for a given board state to be the value (using the evaluation function) of the board state that follows it in the game sequence.

我认为您的意思是您正在使用一些已知的好方法(例如极小极大游戏树)来确定训练示例的“正确”答案。你能解释一下吗?或者,如果我是对的,就对称板而言,似乎有一个微妙的问题需要处理,它可能有不止一个同样好的最佳响应。如果您只将其中之一视为正确,则可能会导致问题。(或者它可能不会,我不确定。)

于 2012-05-21T18:22:55.563 回答
0

在这里,您可以找到使用自我游戏在 Tik Tak Toe(可变棋盘大小)中训练神经网络的实现。梯度通过一个简单的梯度复制技巧在整个游戏中反向传播。

于 2019-06-23T20:05:40.980 回答
0

只是换个想法,您是否考虑过使用强化学习来完成这项任务?这将更容易实施并且更有效。例如,您可以使用经常用于游戏的 Q learning。

于 2017-07-31T10:45:52.063 回答