2

在查看了 Breiman (2001) 的原始论文以及其他一些董事会帖子后,我对 WEKA 随机森林实施使用的实际程序有些困惑。没有一个来源足够详细,许多甚至相互矛盾。

具体是如何工作的,执行了哪些步骤?

到目前为止我的理解:

  • 为每棵树创建与训练数据相同大小的引导样本
  • 每个节点只考虑定义大小的可用特征的随机子集(参数可以在 WEKA 中选择)
  • 关于使用的基本树学习器,我发现一个 2006 年的帖子说明它是一个修改后的 REPTree。
  • 树完全长大,没有修剪。
  • 应用多数票(在准确性作为绩效指标的情况下)

我的问题:

  • 是否实际使用了自举抽样?
  • REPTree 是否仍在使用或从那时起算法是否已更改?

澄清这些问题对我有很大帮助!

4

1 回答 1

4

回答您的问题

  1. 确实使用了 Bagging(引导聚合)。您可以在第529行的代码中查看

  2. 似乎使用了 RandomTree,如第530行所示

此信息来自 Weka 3.7.5,我相信一直到 3.6.8 版本都是正确的,但我没有检查源代码。

于 2013-10-02T15:01:50.173 回答