2

我有两个数据框,train并且test. 它们都具有相同的确切列名,其中包含分类字符串特征。

我正在尝试将这些特征映射到训练集中的虚拟变量,训练回归模型,然后对测试集进行相同的精确映射并将训练后的模型应用于它。

我遇到的问题是,由于test小于train,它恰好不包含某些分类特征的所有可能值。由于pandas.get_dummies()似乎只是着眼于data.Series.unique()创建新列,在以相同的方式为trainand添加虚拟列之后testtest现在列更少了。

那么我如何改为添加虚拟列train,然后使用相同的确切列名test,即使对于特定功能testtest.feature.unique()是 的子集train.feature.unique()?我查看了pd.get_dummies 文档,但我认为我没有看到任何可以满足我要求的东西。任何帮助是极大的赞赏!

4

0 回答 0