我有一个 csv 文件,它有 25 列,有些是数字的,有些是分类的,有些是演员、导演的名字。我想对这些数据使用回归模型。为此,我必须使用 scikit 包中的 LabelBinarizer 将分类列字符串类型转换为数值。如何在此具有多个分类数据的数据帧上使用 LabelBinarize?
本质上,我想对标签进行二值化并将它们添加到数据框中。
在下面的代码中,我检索了要二值化的列列表,但无法弄清楚如何将新列添加回 df?
categorylist = ['color', 'language', 'country', 'content_rating']
for col in categorylist:
tempdf = label_binarizer.fit_transform(df[col])
在下一步中,我想添加tempdf
并df
删除原始列 df[col]。