artificial-intelligence - 如何在 Q-Learning 中使用 MinMax 树？

Question

如何在 Q-Learning 中使用 MinMax 树？

我想实现一个 Q-Learning 连接四个代理，并听说在其中添加 MinMax 树会有所帮助。

score 2 · Accepted Answer

Q-learning是一种时间差分学习算法。对于每个可能的状态（棋盘），它会学习可用动作（动作）的价值。但是，它不适合与Minimax一起使用，因为 Minimax 算法需要一个评估函数来返回一个位置的值，而不是该位置的动作值。

但是，可以使用时间差分方法来学习这样的评估函数。最值得注意的是，Gerald Tesauro 使用 TD(λ)（“TD lambda”）算法创建了TD-Gammon，这是一个人类竞争的西洋双陆棋游戏程序。他写了一篇描述该方法的文章，您可以在此处找到。

TD(λ) 后来扩展到 TDLeaf(λ)，特别是为了更好地处理 Minimax 搜索。例如，在国际象棋程序 KnightCap 中使用了 TDLeaf(λ)。您可以在本文中阅读有关 TDLeaf 的信息。

score 0 · Accepted Answer

Minimax 允许您查看未来的许多动作，并以最大化您在该时间跨度内得分的机会的方式进行游戏。这对 Connect-4 来说是件好事，因为游戏几乎可以在任何时候结束，而且每回合可用的移动数不是很大。Q-Learning 将为您提供一个值函数来指导 Minimax 搜索。

score 0 · Accepted Answer

Littman 在 Q 学习中使用了 minimax。因此，在他著名的开创性著作Markov Games 中提出了 Minimix-Q 学习算法作为多智能体强化学习的框架。他的工作是多智能体设置中的零和博弈。后来 Hu 和 Wellman 扩展了他的工作来开发 NashQ 学习，你可以在这里找到。

3 回答 3