我有一个数据框X,它有两个分类特征和 41 个数字特征。所以X总共有 43 个功能。
现在,我想将分类特征转换为数值级别,以便它们可以在RandomForest分类器中使用。
我已经完成了以下操作,其中0并1指出了分类特征的位置:
import pandas as pd
X = pd.read_csv("train.csv")
F1 = pd.get_dummies(X.iloc[:, 0])
F2 = pd.get_dummies(X.iloc[:, 1])
然后,我连接这两个数据帧:
Xnew = pd.concat([F1, F2, X.ix[:, 2:]])
现在,Xnew有 63 个特征(F1有 18 个和F24 个特征,其余 41 个来自X)
这个对吗?有没有更好的方法来做同样的事情?我是否需要删除第一列以避免共线性F1?F2