artificial-intelligence - 蒙特卡洛模拟中的“Last Good Reply”和“Rapid Action Value Estimation”是什么概念？

Question

我已经为 Hex 游戏开发了一个基于 Monte Carlo Tree Search 的简单 hex 播放器。现在我想使用 RAVE (Rapid Action Value Estimation) 和 LGP (last good reply) 来扩展十六进制播放器。文章在这里和这里。
我想知道这里是否有人使用这些方法中的任何一种来提高树搜索性能并可以帮助我理解它？
我也想知道为什么这些算法被称为AMAF（All Moves As First）启发式？

score 1 · Accepted Answer

在利用强化学习的游戏中的蒙特卡罗树搜索领域，有两种类型的反向传播，AMAF 和 UCT。

UCT方法反向传播在选择阶段它通过的路径。只有在选择过程中遇到的节点才会在它们的状态下精确地反向传播。但是在AMAF中，所有在 roll_out 阶段遇到的节点都被存储，并且在反向传播阶段，连同选择路径中的节点，在不考虑状态的情况下进行反向传播。

UCT 给出了（状态，动作）对的非常精确和局部的值，但收敛速度太慢。另一方面，AMAF 启发式收敛速度非常快，但 (state,action) 对值太笼统，不可靠。

通过对如下值使用递减系数，我们可以从这两种策略中受益：

a * UCT + (1 - a) * AMAF

这是 RAVE（快速行动价值估计）启发式。

Last-Good-Reply 是基于 AMAF 的，但可以从 RAVE 中受益。它的总体思路是，在对战阶段，当我们使用招式对抗对手的招式时，如果这些招式对对手的招式成功，那么我们可能能够存储这些招式并在下一次对战中使用它们。

artificial-intelligence - 蒙特卡洛模拟中的“Last Good Reply”和“Rapid Action Value Estimation”是什么概念？

1 回答 1

Related

Reference