4

如果我们知道特征的数量,我们如何找到随机森林的最大深度?

这是正则化随机森林分类器所必需的。

4

1 回答 1

2

我以前没有想过这个。一般来说,树是不确定的。而不是问最大深度是多少?您可能想知道平均深度是多少,或者一棵树的深度为 20 的可能性是多少……无论如何,可以计算出最大深度的一些界限。因此,要么一个节点用完(a)inbag 样本,要么(b)可能的分裂。

(a) 如果 inbag 样本 (N) 是限制部分,可以想象一棵分类树,其中除了一个样本之外的所有样本在每次拆分时都向左转发。那么最大深度是N-1。这种结果极不可能,但有可能。最小深度树,其中所有子节点都一样大,那么最小深度将是~log2(N),例如 16,8,4,2,1。在实践中,树的深度将介于最大值和最小值之间。控制最小节点大小的设置会减少深度。

(b) 检查特征是否限制了树的深度,并且您事先知道训练集,然后计算有多少训练样本是唯一的。唯一样本 (U) 无法拆分。只为每棵树选择约 0.63 个样本。N ~ U * 0.63。使用 (a) 部分的规则。在引导过程中可以选择所有独特的样本,但这也不太可能。

如果您不知道您的训练集,请尝试估计在 d 个特征中的每个特征 (i) 中可以找到多少个级别 (L[i])。对于分类特征,答案可能会给出。对于从真实分布中提取的数字特征,将有与样本一样多的级别。可能的唯一样本为 U = L[1] * L[2] * L[3] ... * L[d]。

于 2015-10-07T07:00:25.490 回答