对于连续四场比赛,强化学习的最佳算法是什么。我想构建一个四连胜的游戏,它将使用其中一种 RL 算法来玩:Q-Learning、MinMax 等。
考虑到我正在使用 Java,最好使用什么。
对于连续四场比赛,强化学习的最佳算法是什么。我想构建一个四连胜的游戏,它将使用其中一种 RL 算法来玩:Q-Learning、MinMax 等。
考虑到我正在使用 Java,最好使用什么。
MinMax 非常适合该游戏。真正的问题是,你确定某个动作的“价值”是多少时,你的直觉功能有多好。
MinMax 通常不被认为是强化学习算法,但它可能是 Connect 4 的“最佳”(取决于你的意思)。
近三年来, Connect 4 已经解决(在许多不同尺寸的电路板上)。该求解器甚至被用作称为Fhourstones的处理器基准测试,并且 Java(和 C)的源代码是免费提供的。
如果您的目标是了解 Q-learning(以表格形式)、REINFORCE 或一些更现代的强化学习算法,例如使用神经网络 (DQN) 或 Action Advantage Actor Critic (A3C) 的深度 Q 学习,那么我毫无疑问,这些都可以成功地应用于 Connect 4。我推荐一本好书,比如 Barto & Sutton 的强化学习。在撰写本文时,第 2 版的草稿以 PDF 格式免费提供。
但是,如果您的目标只是拥有一名最好的球员,那么您将难以击败 Fhourstones 的完美发挥。