r - R中选择哪个级别是lm回归中因子的基本类别的最佳方法

Question

假设我想使用lm和 afactor作为右手边的变量来运行回归。选择因子中的哪个级别是基本类别（为避免多重共线性而被排除的类别）的最佳方法是什么。请注意，我对排除截距不感兴趣，因为我有很多因素。

我还想要一个基于公式的解决方案，而不是直接作用于 data.frame 的解决方案，尽管如果您认为您有一个非常好的解决方案，请也发布它。

我的解决方案是：

base_cat <- function(x) c(x,1:(x-1),(x+1):100) 
a_reg <- lm(y ~ x1 + x2 + factor(x3, levels=base_cat(30)) #suppose that x3 has draws from the integers 1 to 100.

遗漏的类别 bylm是因子中的第一个级别，因此这只是重新排序级别，以便指定的级别是第一个级别，base_cat()其余的放在后面。

还有其他想法吗？

score 6 · Accepted Answer

该功能relevel正是这样做的。您将无序因子和参考级别的名称传递给它，它会返回一个以该级别作为第一个的因子。

r - R中选择哪个级别是lm回归中因子的基本类别的最佳方法

1 回答 1

Related

Reference