我正在使用 patsy 使用公式 api 将回归与 statsmodels 拟合。
我的问题是我的设计矩阵是奇异的,因为 patsy 创建(本地?)分类的冗余交互。
import patsy
import pandas as pd
data = [('y',[2,5,6]),
('c1',['a','a','b']),
('c2',['g','f','g'])]
df = pd.DataFrame.from_items(data)#([y,c1,c2],columns=['y','c1','c2'])
formula = "y ~C(c1):C(c2)-1"
y,X = patsy.dmatrices(formula,df,return_type='dataframe')
print (X)
C(c1)[a]:C(c2)[f] C(c1)[b]:C(c2)[f] C(c1)[a]:C(c2)[g] C(c1)[b]:C(c2)[g]
0 0.0 0.0 1.0 0.0
1 1.0 0.0 0.0 0.0
2 0.0 0.0 0.0 1.0
我想排除第二列,因为当c1
有值b
时c2
没有值f