java - 连续四局游戏强化学习的最佳算法

Question

对于连续四场比赛，强化学习的最佳算法是什么。我想构建一个四连胜的游戏，它将使用其中一种 RL 算法来玩：Q-Learning、MinMax 等。

考虑到我正在使用 Java，最好使用什么。

score 0 · Accepted Answer

MinMax 非常适合该游戏。真正的问题是，你确定某个动作的“价值”是多少时，你的直觉功能有多好。

score 0 · Accepted Answer

MinMax 通常不被认为是强化学习算法，但它可能是 Connect 4 的“最佳”（取决于你的意思）。

近三年来， Connect 4 已经解决（在许多不同尺寸的电路板上）。该求解器甚至被用作称为Fhourstones的处理器基准测试，并且 Java（和 C）的源代码是免费提供的。

如果您的目标是了解 Q-learning（以表格形式）、REINFORCE 或一些更现代的强化学习算法，例如使用神经网络 (DQN) 或 Action Advantage Actor Critic (A3C) 的深度 Q 学习，那么我毫无疑问，这些都可以成功地应用于 Connect 4。我推荐一本好书，比如 Barto & Sutton 的强化学习。在撰写本文时，第 2 版的草稿以 PDF 格式免费提供。

但是，如果您的目标只是拥有一名最好的球员，那么您将难以击败 Fhourstones 的完美发挥。

java - 连续四局游戏强化学习的最佳算法

2 回答 2

Related

Reference