在查看了 Breiman (2001) 的原始论文以及其他一些董事会帖子后,我对 WEKA 随机森林实施使用的实际程序有些困惑。没有一个来源足够详细,许多甚至相互矛盾。
具体是如何工作的,执行了哪些步骤?
到目前为止我的理解:
- 为每棵树创建与训练数据相同大小的引导样本
- 每个节点只考虑定义大小的可用特征的随机子集(参数可以在 WEKA 中选择)
- 关于使用的基本树学习器,我发现一个 2006 年的帖子说明它是一个修改后的 REPTree。
- 树完全长大,没有修剪。
- 应用多数票(在准确性作为绩效指标的情况下)
我的问题:
- 是否实际使用了自举抽样?
- REPTree 是否仍在使用或从那时起算法是否已更改?
澄清这些问题对我有很大帮助!