在阅读了 Deep Mind 的 Alpha Zero 论文后,我了解到我们正在构建一棵树,并且每次看到一个新节点时都会向树中添加一个新节点。对于像围棋(甚至国际象棋)这样具有如此巨大的状态空间和如此长的训练时间的游戏,我们绝对应该超过这样一棵树的任何实际内存大小。但据我所知,这些算法已经实际实现了。我的理解差距在哪里?
在阅读了 Deep Mind 的 Alpha Zero 论文后,我了解到我们正在构建一棵树,并且每次看到一个新节点时都会向树中添加一个新节点。对于像围棋(甚至国际象棋)这样具有如此巨大的状态空间和如此长的训练时间的游戏,我们绝对应该超过这样一棵树的任何实际内存大小。但据我所知,这些算法已经实际实现了。我的理解差距在哪里?