1

我将我的数据集分为两组,训练集和测试集。我的数据中有 6 种类型的虚拟变量。每次我尝试在训练集上运行模型时都会出错。这是我的代码:

X = dmatrix('sfdc_tier + poc_image + sub_segment + Product_Set + Volume_2019_Product', data = data)
x = dmatrix('sfdc_tier + poc_image + sub_segment + Product_Set + Volume_2019_Product', data = Training_Set)
Y = data['Discount_Total')
model = sm.OLS(Y,X).fit()
y_pred = model.predict(x)

请注意,“Volume_2019_Product”是唯一的数字数据,其余数据是分类数据。

我得到的错误如下:

ValueError:形状(662,69)和(90,)未对齐:69(dim 1)!= 90(dim 0)

我该如何解决这个错误?我需要我的训练数据矩阵看起来与 X 的原始 dmatrix 完全相同。训练数据包含与我在其上训练模型的其他数据集相同的列标题,但它不包含正在创建的标题下的每个分类变量模型预测误差。

4

0 回答 0