21

我想在不完全指定每个变量的情况下强制将特定变量纳入 glm 回归。我的真实数据集有大约 200 个变量。到目前为止,我无法在我的在线搜索中找到这样的样本。

例如(只有 3 个变量):

n=200
set.seed(39) 
samp = data.frame(W1 = runif(n, min = 0, max = 1), W2=runif(n, min = 0, max = 5)) 
samp = transform(samp, # add A
A = rbinom(n, 1, 1/(1+exp(-(W1^2-4*W1+1))))) 
samp = transform(samp, # add Y
Y = rbinom(n, 1,1/(1+exp(-(A-sin(W1^2)+sin(W2^2)*A+10*log(W1)*A+15*log(W2)-1+rnorm(1,mean=0,sd=.25))))))

如果我想包含所有主要术语,这有一个简单的捷径:

glm(Y~., family=binomial, data=samp)

但是假设我想包括所有主要术语(W1、W2 和 A)加上 W2^2:

glm(Y~A+W1+W2+I(W2^2), family=binomial, data=samp)

这有捷径吗?

[在发布前编辑自己:]这行得通!glm(formula = Y ~ . + I(W2^2), family = binomial, data = samp)

好吧,那这个呢!

我想省略一个主要术语变量,只包括两个主要术语(A,W2)和 W2^2 和 W2^2:A:

glm(Y~A+W2+A*I(W2^2), family=binomial, data=samp)

显然,只有几个变量不需要捷径,但我使用的是高维数据。当前数据集“仅”有 200 个变量,但其他一些数据集有数千个。

4

2 回答 2

21

.创造性地使用构建包含所有或几乎所有变量的公式是一种很好且干净的方法。有时有用的另一个选项是以编程方式将公式构建为字符串,然后使用以下命令将其转换为公式as.formula

vars <- paste("Var",1:10,sep="")
fla <- paste("y ~", paste(vars, collapse="+"))
as.formula(fla)

当然,您可以使fla对象方式更复杂。

于 2010-08-28T13:21:40.493 回答
16

Aniko回答了你的问题。扩展一点:

您还可以使用 - 排除变量:

glm(Y~.-W1+A*I(W2^2), family=binomial, data=samp)

对于大组变量,我经常为变量分组创建一个框架,它允许您执行以下操作:

vars <- data.frame(
    names = names(samp),
    main = c(T,F,T,F),
    quadratic =c(F,T,T,F),
    main2=c(T,T,F,F),
    stringsAsFactors=F
)


regform <- paste(
    "Y ~",
    paste(
      paste(vars[vars$main,1],collapse="+"),
      paste(vars[1,1],paste("*I(",vars[vars$quadratic,1],"^2)"),collapse="+"),
      sep="+"
    )
)
> regform
[1] "Y ~ W1+A+W1 *I( W2 ^2)+W1 *I( A ^2)"

> glm(as.formula(regform),data=samp,family=binomial)

使用各种条件(名称、结构等)来填充数据框,使我能够快速选择大型数据集中的变量组。

于 2010-08-29T08:34:50.740 回答