r - R在model.matrix中缺少级别

Question

我正在尝试将具有分类变量的数据框转换为 model.matrix 但正在丢失变量级别。

这是我的代码：

df1 <- data.frame(id = 1:200, y =rbinom(200, 1, .5),  var1 = factor(rep(c('abc','def','ghi','jkl'),50)))
df1$var2 <- factor(rep(c('ab c','ghi','jkl','def'),50))
df1$var3 <- factor(rep(c('abc','ghi','nop','xyz'),50))

df1$var2 <- as.character(df1$var2)
df1$var2 <- gsub('\\s','',df1$var2)
df1$var2 <- factor(df1$var2)
sapply(df1, levels)

mm1 <- model.matrix(~ 0+.,df1)
head(mm1)

有什么建议么？这是矩阵不可逆性问题吗？

score 5 · Accepted Answer

模型矩阵完全正确。对于因子，模型矩阵包含的因子比因子少一列：此信息已包含在该(Intercept)列中。您缺少此列，因为您已+0在模型项中指定。尝试这个：

mm2 <- model.matrix(~., df1)
head(mm2)

您现在将看到(Intercept)编码“默认”信息的列，现在var1列名中也缺少第一级。代表您在“参考级别”的(Intercept)观察，这是每个分类属性的第一级别的组合。与此参考水平的任何偏差都编码在var*???列中，并且由于您的模型假设这些列之间没有交互，因此您得到 (4 - 1) * 3var*???列加上列（在初始模型矩阵(Intercept)中替换为）。var1abc

不幸的是，我缺乏准确的术语来描述这一点。有人帮我吗？

r - R在model.matrix中缺少级别

1 回答 1

Related

Reference