谁能告诉我sklearn(Python)中的集成(如随机森林、梯度提升、Adaboost)和树(如决策树)如何处理连续变量?在建造树木时,它们是否被视为每个单独的价值?还是他们自动装箱?如果它们被分箱 - 遵循的逻辑是什么。如果它们没有被装箱,我肯定我错过了一些东西。应该有一些可用的智能分箱(内置?),它将根据类分布将变量值分箱(至少在二进制分类的情况下)
深入:当我在 weka 中加载我的 arff(高度倾斜的数据集中的数百万行和数百个特征)并滚动浏览变量/目标(二进制)图时,我可以看到其中许多都有强大的 bin(目标为正的区域)。这些垃圾箱,即 >=x <=y 是否被 sklearn 中提到的上述模型自动拾取?见附图(如果你能看到它,变量/目标图中有非常细的 6 条红线)
非常感谢您对此的任何见解
问候