1

我结合了我的训练和测试数据集,并使用了来自 pandas 的 get_dummies 函数到一个热编码分类数据。连接背后的原因是训练集和测试集的分类数据中的级别数不同。

如果我在单独的火车和测试集上使用 get_dummies 函数,那么我会得到一个不同维度的数据框,所以我想将它们组合起来。

我现在想再次将其拆分为训练集和测试集。可能吗?

假设我们使用 pd.get_dummies 后得到的输出被命名为“数据集”。如果数据集中“C10”列的值为 30(整数),则数据属于测试集,否则属于训练集。

如果我尝试像在普通数据框中一样选择值,则会收到以下错误:

dataset = pd.concat([train, test])
dataset_dummy = pd.get_dummies(dataset, prefix_sep='_', columns = cat_columns, sparse = True, drop_first = True)

test_dummy = dataset_dummy.iloc[dataset_dummy['day'] == 30]


AttributeError: 'BlockManager' object has no attribute 'T'
4

0 回答 0