使用 patsy.dmatrices 将我的数据拆分为 y,x 并且我正在丢失观察结果。前任:
formula = 'target ~ v1 + v2 + v3'
y, x = patsy.dmatrices(formula, df, return_type = 'dataframe')
我df.shape
的长度约为 54,000,000,但是在 x/y 拆分之后,我的y.shape
和x.shape
正在记录大约 43,000,000 次观察。我检查了我的df.isna().sum()
,我全盘坐在 0 位。有人可以解释发生了什么,或者解决这个问题吗?我已经使用备用变量在同一个数据帧上执行了拆分,例如
formula = 'target ~ v99 + v2 + v3'
y, x = patsy.dmatrices(formula, df, return_type = 'dataframe')
并且尺寸没有问题。