2

随机森林接受数字数据。通常,带有文本数据的特征被转换为数字类别,连续的数字数据按原样输入,没有离散化。RF如何处理创建节点的连续数据?它会在内部对连续的数值数据进行分类吗?或将每个数据视为离散级别。

例如:我想向 RF 提供一个数据集(当然是在对文本特征进行分类之后)。RF如何处理连续数据?是否建议在喂食之前离散化连续数据(在这种情况下为经度和纬度)?还是这样做信息丢失了?

显示经度和纬度特征中的连续数据的图像

4

2 回答 2

3

据我了解,您是在问如何为连续特征选择阈值。分箱发生在您的类已更改的值处。例如,考虑以下具有x作为特征和y作为类变量的一维数据集

x = [ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [ 1, 1, 0, 0, 0, 0, 0, 1, 1, 1]

将考虑两种可能的候选削减:(i) 2 和 3 之间(实际上看起来像 x<2.5)和 (ii) 7 和 8 之间(如 x<7.5)。在这两个候选人中,将选择第二个候选人,因为它提供了更好的分离。他们的算法进入下一步。

因此,建议您自己离散化数据。用上面的数据想想这个。例如,如果您将数据离散化到 5 个 bin [1, 2 | 3, 4 | 5, 6 | 7, 8 | 9, 10]中,则会错过最佳拆分(因为 7 和 8 将在一个 bin 中)。

于 2015-09-20T16:36:23.373 回答
0

你在问关于DecisionTrees. 因为RandomForest是集成模型,并且它本身对数据一无所知,所以它完全依赖于基本估计器(在这种情况下DecisionTrees)的决策,并聚合它们。

那么,如何DecisionTree处理连续特征:查看这个官方文档页面。DecisionTreeClassifier被拟合在连续数据集(Fisher irises)上,如果你看一下树的图片 - 它在每个节点中都有阈值,超过该节点的某些选定特征。

于 2015-09-19T21:19:04.023 回答