1

我是强化学习和国际象棋项目的新手。我使用神经网络和时间差异学习来训练引擎学习游戏。

神经网络有一个输入层(385 个特征)、两个隐藏层和一个输出层,其范围是 [-1,1],其中 -1 表示输,1 赢(0 平)。我使用 TD-lambda 自学国际象棋,默认情况是只考虑接下来的 10 步。所有权重都在 [-1, 1] 范围内初始化。

我使用前向传播来估计状态的值,但是大多数值都非常接近1或-1,甚至结果是draw,我认为引擎没有很好地学习。我认为一些值很大并且主导结果,改变小的权重没有帮助。我改变了两个隐藏层的大小,但它不起作用(但是,我尝试了一个小尺寸和维度的玩具示例,它可以收敛并且经过数十次迭代后估计值非常接近目标)。我不知道如何解决这个问题,有人可以给我一些建议吗?

谢谢你。

下面列出了一些参考资料

4

0 回答 0