我有一个数据框X
,它有两个分类特征和 41 个数字特征。所以X
总共有 43 个功能。
现在,我想将分类特征转换为数值级别,以便它们可以在RandomForest
分类器中使用。
我已经完成了以下操作,其中0
并1
指出了分类特征的位置:
import pandas as pd
X = pd.read_csv("train.csv")
F1 = pd.get_dummies(X.iloc[:, 0])
F2 = pd.get_dummies(X.iloc[:, 1])
然后,我连接这两个数据帧:
Xnew = pd.concat([F1, F2, X.ix[:, 2:]])
现在,Xnew
有 63 个特征(F1
有 18 个和F2
4 个特征,其余 41 个来自X
)
这个对吗?有没有更好的方法来做同样的事情?我是否需要删除第一列以避免共线性F1
?F2