3

如何在 Q-Learning 中使用 MinMax 树?

我想实现一个 Q-Learning 连接四个代理,并听说在其中添加 MinMax 树会有所帮助。

4

3 回答 3

2

Q-learning是一种时间差分学习算法。对于每个可能的状态(棋盘),它会学习可用动作(动作)的价值。但是,它不适合与Minimax一起使用,因为 Minimax 算法需要一个评估函数来返回一个位置的值,而不是该位置的动作值。

但是,可以使用时间差分方法来学习这样的评估函数。最值得注意的是,Gerald Tesauro 使用 TD(λ)(“TD lambda”)算法创建了TD-Gammon,这是一个人类竞争的西洋双陆棋游戏程序。他写了一篇描述该方法的文章,您可以在此处找到。

TD(λ) 后来扩展到 TDLeaf(λ),特别是为了更好地处理 Minimax 搜索。例如,在国际象棋程序 KnightCap 中使用了 TDLeaf(λ)。您可以在本文中阅读有关 TDLeaf 的信息。

于 2012-01-20T20:30:46.530 回答
0

Minimax 允许您查看未来的许多动作,并以最大化您在该时间跨度内得分的机会的方式进行游戏。这对 Connect-4 来说是件好事,因为游戏几乎可以在任何时候结束,而且每回合可用的移动数不是很大。Q-Learning 将为您提供一个值函数来指导 Minimax 搜索。

于 2012-01-20T08:47:54.763 回答
0

Littman 在 Q 学习中使用了 minimax。因此,在他著名的开创性著作Markov Games 中提出了 Minimix-Q 学习算法 作为多智能体强化学习的框架。他的工作是多智能体设置中的零和博弈。后来 Hu 和 Wellman 扩展了他的工作来开发 NashQ 学习,你可以在这里找到。

于 2020-01-11T11:09:50.980 回答