我有两个数据框,train
并且test
. 它们都具有相同的确切列名,其中包含分类字符串特征。
我正在尝试将这些特征映射到训练集中的虚拟变量,训练回归模型,然后对测试集进行相同的精确映射并将训练后的模型应用于它。
我遇到的问题是,由于test
小于train
,它恰好不包含某些分类特征的所有可能值。由于pandas.get_dummies()
似乎只是着眼于data.Series.unique()
创建新列,在以相同的方式为train
and添加虚拟列之后test
,test
现在列更少了。
那么我如何改为添加虚拟列train
,然后使用相同的确切列名test
,即使对于特定功能test
,test.feature.unique()
是 的子集train.feature.unique()
?我查看了pd.get_dummies 文档,但我认为我没有看到任何可以满足我要求的东西。任何帮助是极大的赞赏!