9

是否可以将 RandomForests 应用于非常小的数据集?我有一个包含许多变量的数据集,但每个变量只有 25 个观察值。随机森林产生合理的结果,OOB 错误低 (10-25%)。关于使用的最少观察次数是否有任何经验法则?事实上,其中一个响应变量是不平衡的,如果我要对它进行二次抽样,我最终会得到更少的观察结果。提前致谢

4

1 回答 1

6

绝对 RF 可用于这些类型的数据集(即 p>n)。事实上,他们在像基因组学这样的领域使用 RF,其中字段数 >= 20000 并且只有非常少的行数 - 例如 10-12。整个问题是找出 20k 变量中的哪一个将构成一个简约标记(即特征选择是整个问题)。

我没有任何关于最小尺寸的 ROT,除非您的模型在保留样本上效果不佳(或者 Hold-One-Back 交叉验证在您的情况下可能效果很好),那么您应该尝试其他方法。

希望这可以帮助

于 2013-08-30T16:07:49.843 回答