scikit-learn - Scikit Learn - 随机森林：如何处理连续特征？

Question

随机森林接受数字数据。通常，带有文本数据的特征被转换为数字类别，连续的数字数据按原样输入，没有离散化。RF如何处理创建节点的连续数据？它会在内部对连续的数值数据进行分类吗？或将每个数据视为离散级别。

例如：我想向 RF 提供一个数据集（当然是在对文本特征进行分类之后）。RF如何处理连续数据？是否建议在喂食之前离散化连续数据（在这种情况下为经度和纬度）？还是这样做信息丢失了？

score 3 · Accepted Answer

据我了解，您是在问如何为连续特征选择阈值。分箱发生在您的类已更改的值处。例如，考虑以下具有x作为特征和y作为类变量的一维数据集

x = [ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [ 1, 1, 0, 0, 0, 0, 0, 1, 1, 1]

将考虑两种可能的候选削减：(i) 2 和 3 之间（实际上看起来像 x<2.5）和 (ii) 7 和 8 之间（如 x<7.5）。在这两个候选人中，将选择第二个候选人，因为它提供了更好的分离。他们的算法进入下一步。

因此，不建议您自己离散化数据。用上面的数据想想这个。例如，如果您将数据离散化到 5 个 bin [1, 2 | 3, 4 | 5, 6 | 7, 8 | 9, 10]中，则会错过最佳拆分（因为 7 和 8 将在一个 bin 中）。

score 0 · Accepted Answer

你在问关于DecisionTrees. 因为RandomForest是集成模型，并且它本身对数据一无所知，所以它完全依赖于基本估计器（在这种情况下DecisionTrees）的决策，并聚合它们。

那么，如何DecisionTree处理连续特征：查看这个官方文档页面。DecisionTreeClassifier被拟合在连续数据集（Fisher irises）上，如果你看一下树的图片 - 它在每个节点中都有阈值，超过该节点的某些选定特征。

2 回答 2