r - R - 在 data.table 中使用 glm

Question

我正在尝试在 data.table 中做一些 glm，以生成按关键因素拆分的建模结果。

我一直在成功地做到这一点：

高级glm

glm(modellingDF,formula=Outcome~IntCol + DecCol,family=binomial(link=logit))
具有单列的范围 glm

modellingDF[,list(结果, 拟合=glm(x,formula=Outcome~IntCol ,family=binomial(link=logit))$fitted ), by=variable]
具有两个整数列的范围 glm

modellingDF[,list(结果, 拟合=glm(x,formula=Outcome~IntCol + IntCol2 ,family=binomial(link=logit))$fitted ), by=variable]

但是，当我尝试使用十进制列在范围内执行高级 glm 时，会产生此错误

Error in model.frame.default(formula = Outcome ~ IntCol + DecCol, data = x,  : 
  variable lengths differ (found for 'DecCol')

我想这可能是由于分区的长度可变，所以我用一个可重现的例子进行了测试：

library("data.table")

testing<-data.table(letters=sample(rep(LETTERS,5000),5000),
                    letters2=sample(rep(LETTERS[1:5],10000),5000), 
                    cont.var=rnorm(5000),
                    cont.var2=round(rnorm(5000)*1000,0),
                    outcome=rbinom(5000,1,0.8)
                    ,key="letters")
testing.glm<-testing[,list(outcome,
                  fitted=glm(x,formula=outcome~cont.var+cont.var2,family=binomial(link=logit))$fitted)
        ),by=list(letters)]

但这没有错误。我认为这可能是由于 NA 或其他原因，但 data.table modellingDF 的摘要没有表明应该存在任何问题：

DecCol
Min.   :0.0416
1st Qu.:0.6122
Median :0.7220
Mean   :0.6794
3rd Qu.:0.7840
Max.   :0.9495

nrow(modellingDF[is.na(DecCol),])   # results in 0

modellingDF[,list(len=.N,DecCollen=length(DecCol),IntCollen=length
(IntCol ),Outcomelen=length(Outcome)),by=Bracket]

  Bracket  len DecCollen IntCollen Outcomelen
1:     3-6 39184  39184       39184      39184
2:     1-2 19909  19909       19909      19909
3:       0  9912   9912        9912       9912

也许我今天打瞌睡，但任何人都可以提出解决方案或进一步深入研究这个问题的方法吗？

score 8 · Accepted Answer

您需要data在glm. 在 a data.table(using [) 中， this 被 . 引用.SD。（有关相关问题，请参阅在 R 中的 data.table 环境中创建公式）

所以

modellingDF[,list(Outcome, fitted = glm(data = .SD, 
  formula = Outcome ~ IntCol ,family = binomial(link = logit))$fitted),
 by=variable]

将工作。

虽然在这种情况下（简单地提取拟合值并继续），但如果您保存整个模型然后尝试它，这种方法是合理的，使用data.table并且可能会进入混乱的环境（请参阅为什么在 lm 上使用更新在分组数据表中丢失其模型数据？）.SDupdate

score 0 · Accepted Answer

除了@mnel's answer之外，您还可以通过使用适当的函数来提取拟合值并指定适当na.action的 in来避免数据中的 NA 问题glm：

modellingDF[, list(Outcome, fitted = 
   fitted(glm(data = .SD, 
       formula = Outcome ~ IntCol ,
       family = binomial(link = logit),
       na.action=na.exclude)
   ), by=variable]

这将返回一个与原始数据具有相同大小的拟合值的对象，保留 NA，但将它们排除在模型估计之外。

r - R - 在 data.table 中使用 glm

2 回答 2

Related

Reference