1

我正在分析RandomForestClasifier并需要一些帮助。

max_features参数给出了随机森林中分裂的最大特征数,通常定义为sqrt(n_features). 如果 m 是 n 的 sqrt,则 DT 形成的组合没有 nCm。如果 nCm 小于 n_estimators(随机森林中的决策树数)怎么办?

示例:对于 n = 7,max_features为 3,因此 nCm 为 35,这意味着决策树的 35 个唯一特征组合。现在对于n_estimators= 100,剩下的 65 棵树会有重复的特征组合吗?如果是这样,树会不会在答案中引入偏见?

4

1 回答 1

2
  1. max_features参数设置每次拆分时要使用的最大特征数。因此,如果有 p 个节点, 。

  2. max_samples强制对来自 X 的数据点进行采样。默认情况下,它的采样大小与 X 的大小相同。

从文档:

max_samples整数或浮点数,默认=无

如果 bootstrap 为 True,则从 X 抽取的样本数以训练每个基本估计器。

如果无(默认),则绘制 X.shape[0] 样本。

因此,可以形成的树的唯一组合将是 p! * nCm * (n+n-1)! / (n!(n-1)!)

对于您的示例,让我们考虑每棵树中有 10 个节点,您的 X 中有 10 个样本。

10! * 7C3 * (19!/ 10! * 9!)
= 11732745024000.0

因此,合理大小的数据集不会有任何偏差。

于 2020-03-11T05:50:37.320 回答