monte-carlo-tree-search - 什么是神经网络中的 Monte Carlo Beam Search？

Question

Monte Carlo Beam Search 在神经网络和强化学习研究中经常被引用。它是什么以及它与蒙特卡洛搜索有何不同。

score 1 · Accepted Answer

蒙特卡洛树搜索是一种最佳优先、基于滚动的树搜索算法，它是多个游戏的最新技术。它通过基于搜索空间的随机采样扩展搜索树来工作。

束搜索仅扩展有限集合中最有希望的节点。它广泛用于基于序列的任务，例如 NLP 和音乐生成。束搜索的一个主要优点是它为可能结果的数量可能超过内存限制的大型系统保持了可处理性。

Monte Carlo Beam Search，2012 年由Cazenave和Baier 等人的两篇论文介绍。, 扩展了嵌套蒙特卡洛搜索，其中根据较低级别的嵌套蒙特卡洛搜索的结果选择每一步棋。最低级别是淘汰赛（随机进行移动的游戏）。

引用论文：

光束的大小对于每个级别都是固定的。只有最好的比赛才能保持在给定的水平。

例如，beam search 大小为 2 意味着在每次移动时，都会保留所有孩子中最好的两个位置。这比保留所有孩子的内存效率高得多。

1 回答 1