0

我已经为我的应用程序实现了蒙特卡洛树搜索,但是我的选择函数反复找到具有最高预期奖励的相同节点(因为每次它选择相同的节点然后进行扩展、推出和反向传播,所以这个节点肯定会是选择)。我首先从根节点开始,然后完全展开它,然后使用选择功能选择一个具有最高 ucb1 值的子节点,然后进行展开、展开和反向传播,然后再次选择展开展开和反向传播。我的实施有什么问题吗?

4

0 回答 0