machine-learning - 在给定特征数量的情况下找到随机森林的最大深度

Question

如果我们知道特征的数量，我们如何找到随机森林的最大深度？

这是正则化随机森林分类器所必需的。

score 2 · Accepted Answer

我以前没有想过这个。一般来说，树是不确定的。而不是问最大深度是多少？您可能想知道平均深度是多少，或者一棵树的深度为 20 的可能性是多少……无论如何，可以计算出最大深度的一些界限。因此，要么一个节点用完（a）inbag 样本，要么（b）可能的分裂。

(a) 如果 inbag 样本 (N) 是限制部分，可以想象一棵分类树，其中除了一个样本之外的所有样本在每次拆分时都向左转发。那么最大深度是N-1。这种结果极不可能，但有可能。最小深度树，其中所有子节点都一样大，那么最小深度将是~log2(N)，例如 16,8,4,2,1。在实践中，树的深度将介于最大值和最小值之间。控制最小节点大小的设置会减少深度。

(b) 检查特征是否限制了树的深度，并且您事先知道训练集，然后计算有多少训练样本是唯一的。唯一样本 (U) 无法拆分。只为每棵树选择约 0.63 个样本。N ~ U * 0.63。使用 (a) 部分的规则。在引导过程中可以选择所有独特的样本，但这也不太可能。

如果您不知道您的训练集，请尝试估计在 d 个特征中的每个特征 (i) 中可以找到多少个级别 (L[i])。对于分类特征，答案可能会给出。对于从真实分布中提取的数字特征，将有与样本一样多的级别。可能的唯一样本为 U = L[1] * L[2] * L[3] ... * L[d]。

machine-learning - 在给定特征数量的情况下找到随机森林的最大深度

1 回答 1

Related

Reference