我有一个复杂的半参数模型,我正在 R 中拟合。我从一个基于理论的模型开始。它有很多交互术语。我想把它筛选下来:一个一个地删除每个交互项或未交互的主效应,检查 AIC,并保留给我最低 AIC 的模型。然后我想在保留的模型上重复这个过程。
这是一个简单的例子:
set.seed(42)
library(mgcv)
N=220
fac = ceiling(runif(N)*2)
a = rnorm(N); b = rnorm(N); c = rnorm(N); d = runif(N); e = rnorm(N);
y = a^fac + b*e + d/(e+1)
m1 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(a,b,c)
+ te(a,d,by=as.factor(fac))
)
m2 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(b,c)
+ te(a,d,by=as.factor(fac))
)
m3 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(a,c)
+ te(a,d,by=as.factor(fac))
)
m4 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(a,b)
+ te(a,d,by=as.factor(fac))
)
m5 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(a,b,c)
+ te(d,by=as.factor(fac))
)
m6 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(a,b,c)
+ te(a,by=as.factor(fac))
)
m7 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(a,b,c)
+ te(a,d)
)
selection = AIC(m1,m2,m3,m4,m5,m6,m7)
selection
df AIC
米1 14.53435 1626.611
平方米 12.52501 1622.635
立方米 12.54566 1622.615
米4 12.52652 1622.633
m5 13.14108 1620.759
米6 10.99684 1621.156
米7 10.98136 1622.229
m5是最好的
m5 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(a,b,c)
+ te(d,by=as.factor(fac))
)
m5.1 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(b,c)
+ te(d,by=as.factor(fac))
)
m5.2 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(a,c)
+ te(d,by=as.factor(fac))
)
m5.3 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(a,b)
+ te(d,by=as.factor(fac))
)
m5.4 = gam(y~ as.factor(fac)
+ s(a)
+ s(b)
+ s(c)
+ s(d)
+ te(a,b,c)
#+ te(d,by=as.factor(fac))
)
selection.2 = AIC(m5,m5.1,m5.2,m5.3,m5.4)
selection.2
df AIC
m5 13.363029 1621.183
m5.1 9.671656 1617.641
m5.2 9.730047 1617.549
m5.3 9.706424 1617.569
m5.4 9.857504 1620.028
5.2是最好的
...等等。接下来我将在 m5.2 中尝试每个交互项或非交互主效应。问题是我怎样才能自动化呢?从一个模型(在我的例子中是 m1)开始,并让 R 在运行这个算法之后给我最好的模型,直到根据这个算法不再有任何“更好”的模型?
现在我可以手动完成,但随着时间的推移添加数据,模型选择可能会改变。
提前感谢您的任何提示。