0

对于连续四场比赛,强化学习的最佳算法是什么。我想构建一个四连胜的游戏,它将使用其中一种 RL 算法来玩:Q-Learning、MinMax 等。

考虑到我正在使用 Java,最好使用什么。

4

2 回答 2

0

MinMax 非常适合该游戏。真正的问题是,你确定某个动作的“价值”是多少时,你的直觉功能有多好。

于 2012-01-08T08:19:56.980 回答
0

MinMax 通常不被认为是强化学习算法,但它可能是 Connect 4 的“最佳”(取决于你的意思)。

近三年来, Connect 4 已经解决(在许多不同尺寸的电路板上)。该求解器甚至被用作称为Fhourstones的处理器基准测试,并且 Java(和 C)的源代码是免费提供的。

如果您的目标是了解 Q-learning(以表格形式)、REINFORCE 或一些更现代的强化学习算法,例如使用神经网络 (DQN) 或 Action Advantage Actor Critic (A3C) 的深度 Q 学习,那么我毫无疑问,这些都可以成功地应用于 Connect 4。我推荐一本好书,比如 Barto & Sutton 的强化学习。在撰写本文时,第 2 版的草稿以 PDF 格式免费提供。

但是,如果您的目标只是拥有一名最好的球员,那么您将难以击败 Fhourstones 的完美发挥。

于 2017-08-29T21:41:07.963 回答