0

使用 patsy.dmatrices 将我的数据拆分为 y,x 并且我正在丢失观察结果。前任:

formula = 'target ~ v1 + v2 + v3'
y, x = patsy.dmatrices(formula, df, return_type = 'dataframe')

df.shape的长度约为 54,000,000,但是在 x/y 拆分之后,我的y.shapex.shape正在记录大约 43,000,000 次观察。我检查了我的df.isna().sum(),我全盘坐在 0 位。有人可以解释发生了什么,或者解决这个问题吗?我已经使用备用变量在同一个数据帧上执行了拆分,例如

formula = 'target ~ v99 + v2 + v3'
y, x = patsy.dmatrices(formula, df, return_type = 'dataframe')

并且尺寸没有问题。

4

0 回答 0