我正在学习准分离如何影响 R 二项式 GLM。我开始认为在某些情况下这并不重要。
在我的理解中,当某些因素水平的线性组合可以完全识别故障/非故障时,我们说数据具有准分离性。
因此,我在 R 中创建了一个具有准分离的人工数据集:
fail <- c(100,100,100,100)
nofail <- c(100,100,0,100)
x1 <- c(1,0,1,0)
x2 <- c(0,0,1,1)
data <- data.frame(fail,nofail,x1,x2)
rownames(data) <- paste("obs",1:4)
然后当 x1=1 和 x2=1 (obs 3) 时,数据总是不会失败。在这个数据中,我的协变量矩阵有三列:截距、x1 和 x2。
在我的理解中,准分离会导致无限价值的估计。所以 glm fit 应该失败。但是,以下 glm fit 不会失败:
summary(glm(cbind(fail,nofail)~x1+x2,data=data,family=binomial))
结果是:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4342 0.1318 -3.294 0.000986 ***
x1 0.8684 0.1660 5.231 1.69e-07 ***
x2 0.8684 0.1660 5.231 1.69e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
标准。即使使用准分离,错误似乎也很合理。谁能告诉我为什么准分离不影响 glm 拟合结果?