r - 公式中的 R 和因子编码

Question

如果我想要自定义值的假人，我如何使用公式界面，例如，如果我想要值 1 和 2，而不是 0 和 1。估计可能如下所示，其中supp是一个因子变量。

fit <- lm(len ~ dose + supp, data = ToothGrowth)

在这个例子中，没有太多使用不同的值，但在许多“重写”模型的情况下，它可能很有用。

编辑：实际上，我有 3 个级别，并且希望对两列进行不同的编码，所以一个是 1/0 变量，另一个是 1/2 变量。上面的例子只有两个层次。

score 5 · Accepted Answer

您可以通过创建要使用的矩阵并将其设置为contrasts参数lm或设置因子本身的默认对比度来将对比度设置为您想要的任何内容。

一些样本数据：

set.seed(6)
d <- data.frame(g=gl(3,5,labels=letters[1:3]), x=round(rnorm(15,50,20)))

你心目中的对比：

mycontrasts <- matrix(c(0,0,1,0,1,1), byrow=TRUE, nrow=3)
colnames(mycontrasts) <- c("12","23")
mycontrasts
#     12 23
#[1,]  0  0
#[2,]  1  0
#[3,]  1  1

然后你在lm调用中使用它：

> lm(x ~ g, data=d, contrasts=list(g=mycontrasts))

Call:
lm(formula = x ~ g, data = d, contrasts = list(g = mycontrasts))

Coefficients:
(Intercept)          g12          g23  
       58.8        -13.6          5.8

我们可以通过比较方法来检查它是否正确：

> diff(tapply(d$x, d$g, mean))
    b     c 
-13.6   5.8

默认对比度是使用第一级作为基线：

> lm(x ~ g, data=d)

Call:
lm(formula = x ~ g, data = d)

Coefficients:
(Intercept)           gb           gc  
       58.8        -13.6         -7.8

但这可以通过以下contrasts命令进行更改：

> contrasts(d$g) <- mycontrasts
> lm(x ~ g, data=d)

Call:
lm(formula = x ~ g, data = d)

Coefficients:
(Intercept)          g12          g23  
       58.8        -13.6          5.8

r - 公式中的 R 和因子编码

1 回答 1

Related

Reference