2

我有一个数据框,其中包含来自客户和合同的一些特征以及 0 和 1,显示 2008 年至 2017 年期间是否发生了下跌。我正在使用二项式模型来回归特征上的下跌概率。我有 38000 个不同的合同。

所以我使用这样的二项式模型(R-code):

formule <- y ~ Niveau_gar_incapacite + Niv_indem_mens + Regrpt_franchise + Niveau_prime + Situation_familiale + Classe_age_chute + Grde_Region + Regrpt_strate + Taille_courtier + Commission + Retention + Anciennete + Regrpt_CSP + Regrpt_sinistres + Couplage

logit <- glm(Chute_commerciale~1, data=train, family=binomial(link="logit"))

selection_asc_AIC <- step(logit, direction="forward", trace=TRUE, k=2, scope=list(upper=formule))

经过一些测试以发现多重共线性后,我消除了变量或术语分组。我有这个结果:

GLM 的结果

GLM 的结果

GLM 2 的结果

GLM 2 的结果

对于零偏差和残余偏差,该结果是不正确的。

我认为我的可变曝光是问题所在。事实上,我的合同在不同年份开始和结束。所以我的曝光率可以是 5.32 或 1.36,我有截断和审查。

如何在回归逻辑二项式中处理这种可变暴露? 如果我按暴露年数复制我的行,则会出现观察独立性的问题。

4

0 回答 0