11

我对 Python 比较陌生,正在尝试准备一些数据来训练 RandomForest。由于各种原因,我们希望数据是离散的,所以有几个连续变量需要离散化。我qcut在 pandas 中发现,它似乎可以满足我的要求 - 我可以设置多个 bin,它会将变量离散化为多个 bin,试图保持每个 bin 中的计数均匀。

但是,输出的pandas.qcut是一个区间列表,而 scikit-learn 中的 RandomForest 分类器需要一个字符串。我发现我可以使用.astype(str). 这是我正在做的一个简单示例:

import pandas as pd
from random import sample

vals = sample(range(0,100), 100)
cuts = pd.qcut(vals, q=5)
str_cuts = pd.qcut(vals, q=5).astype(str)

然后 str_cuts 是传入随机森林的变量之一。

但是,该系统的目的是训练一个 RandomForest,将其保存到一个文件中,然后允许有人在以后加载它并获得一个新测试实例的分类,这在训练时是不可用的。并且由于分类器是在离散数据上训练的,新的测试实例需要在使用之前进行离散化。所以我想要做的是在一个新实例中读取,将已经建立的离散化方案应用于它,将其转换为字符串,然后通过随机森林运行它。但是,我对“应用离散化方案”的最佳方式感到困惑。

有没有简单的方法来处理这个?我认为没有直接的方法可以将字符串转换回间隔。我可以从离散化中获取所有 Interval 值的列表(例如:)cuts.unique()并在测试时应用它,但这需要在随机森林旁边保存/加载离散化字典,这看起来很笨重,我担心会遇到问题试图重新创建一个分类变量(主要来自 R,它对分类变量的格式非常特别)。还是有另一种我没有看到的解决方法?

4

2 回答 2

3

使用labels参数 inqcut并使用pandas Categorical.

其中任何一个都可以帮助您为变量创建类别而不是区间。然后,您可以使用一种编码形式,例如标签编码序数编码,将类别(如果您习惯于 R,则为因子)转换为 Forest 将能够使用的数值。

然后过程进行:

cutting => categoricals => encoding

而且您不再需要手动操作。

最后,一些梯度提升树库支持分类变量,尽管它不是灵丹妙药,取决于你的目标。请参阅catboostlightgbm

于 2019-08-26T08:25:16.063 回答
-1

虽然它可能不是最简洁的方法,但确实可以将字符串转换回区间:

import pandas as pd
str_intervals = [i.replace("(","").replace("]", "").split(", ") for i in str_cuts]
original_cuts = [pd.Interval(float(i), float(j)) for i, j in str_intervals]
于 2019-08-26T08:19:20.310 回答