1

当我有使用 pandas get_dummies 创建的分类列时,我试图了解如何将 sklearn RFE 用于线性回归模型

我有一个数据集,布局是:

y = Carsales
X = Unemployment, Queries, CPI_energy, CPI_all, Month(comes in as an int)

我做的第一件事是将月份转换为对象,然后是类别(直接转换为类别类型在 pandas 中不起作用)。

df['MonthFac'] = df['Month'].astype('object')
df['MonthFac'] = df['MonthFac'].astype('category')

然后我创建我的 X,y:

from sklearn.linear_model import LinearRegression
cols = ['Unemployment','Queries','CPI_energy','CPI_all']
X = pd.concat([train[cols],(pd.get_dummies(train['MonthFac']))], axis = 1)
y = train['ElantraSales'].values

lm1 = LinearRegression()

lm1.fit(X,y)

然后我想使用RFE:

from sklearn.feature_selection import RFE

selector = RFE(lm1,step=1, n_features_to_select = 2)
selector.fit(X,y)

寻找 2 个功能的简单 RFE,但结果是它将月份列中的 2 列为 1,从技术上讲,我只需要仅当月份列中的 1 列为 1 时,我会认为“MonthFac”变量在建立我的模型,我想知道要使用的另一个排名靠前的变量是什么。

还是我只是应该使用我的演绎推理来根据输出找出要使用的其他变量selector.ranking_

与 R 相比,sklearn 的学习曲线似乎要高得多。

我也在 pandas/sklearn 中做分类值吗?在 R 中,我所要做的就是as.factorBAM 它完成了所有这些。

还有一个问题,如果我不确定最佳功能数量是多少,我认为我可以创建一个循环选择器 R^2/R^2 adj/MSE 并将它们打印出来,但由于我有这些额外的月份列loop go to 16 因为基本上有 16 个功能,有没有更好的方法来做到这一点?

4

1 回答 1

1

对于您问题的第一部分,每个虚拟变量都被视为一个独特的特征(以您的 12 个月虚拟变量为例,它将产生 11/12 虚拟变量。以 Ja​​n 作为基准常数,其他 11 个虚拟变量的系数告诉您关于特定月份是否具有与 Jan 不同的平均常数),因此RFE为您选择两个月的虚拟特征非常有意义。

但是,由于您LinearRegression在 中使用默认值RFE,并RFE用于.coef_对特征重要性进行排名,因此您应该设置LinearRegression(normalize=True). 否则,基于线性回归系数选择特征是没有意义的。

于 2015-07-09T07:49:52.620 回答