r - 逻辑回归中的暴露变量

user8558612

问问题 2017-09-04T12:47:11.567

386 次

我有一个数据框，其中包含来自客户和合同的一些特征以及 0 和 1，显示 2008 年至 2017 年期间是否发生了下跌。我正在使用二项式模型来回归特征上的下跌概率。我有 38000 个不同的合同。

所以我使用这样的二项式模型（R-code）：

formule <- y ~ Niveau_gar_incapacite + Niv_indem_mens + Regrpt_franchise + Niveau_prime + Situation_familiale + Classe_age_chute + Grde_Region + Regrpt_strate + Taille_courtier + Commission + Retention + Anciennete + Regrpt_CSP + Regrpt_sinistres + Couplage

logit <- glm(Chute_commerciale~1, data=train, family=binomial(link="logit"))

selection_asc_AIC <- step(logit, direction="forward", trace=TRUE, k=2, scope=list(upper=formule))

经过一些测试以发现多重共线性后，我消除了变量或术语分组。我有这个结果：

GLM 的结果

GLM 2 的结果

对于零偏差和残余偏差，该结果是不正确的。

我认为我的可变曝光是问题所在。事实上，我的合同在不同年份开始和结束。所以我的曝光率可以是 5.32 或 1.36，我有截断和审查。

如何在回归逻辑二项式中处理这种可变暴露？ 如果我按暴露年数复制我的行，则会出现观察独立性的问题。

r - 逻辑回归中的暴露变量

0 回答 0

Related

Reference