[前言:我现在意识到我应该使用分类模型(也许是决策树),但我最终使用了线性回归模型。]
我有一个熊猫数据框:
我想使用流派、年份、番茄计分来预测观众得分。但是按照构造,每部电影的类型都列在一个列表中,所以我觉得有必要隔离每种类型,以便将每种类型作为单独的变量传递到我的模型中。
这样做之后,我修改后的数据框看起来像这样,每部电影都有重复的行,但该电影的每个流派元素都是孤立的(只有一部电影从数据框中拉出来显示):
现在,我的问题是,我可以将第二个数据帧按原样传递给 Patsy 和 statsmodel 线性回归,还是行重复会在我的模型中引入偏差?
y1, X1 = dmatrices('Q("Audience Score") ~ Year + Q("Tomato-meter") + Genre',
data=DF2, return_type='dataframe')
总之,寻找一种方法让 patsy 和我的模型将每种类型视为单独的变量.. 但要确保我不会通过传入这种格式的数据框作为数据来伪造数字/模型(因为不是每部电影都具有相同的#类型)。