3

在回归问题中,我有许多分类预测变量(因子)。其中许多因素还具有大量水平(其中一个变量为 2000 个水平)。由于使用这样一个变量作为预测变量的回归将过于高度参数化,我想知道是否有某种方法可以将这样一个变量的许多罕见级别折叠为“其他”级别。

我可以在 R 中使用 factor 函数,例如:

newx <- factor(oldx, levels=c(1,2,3,rep(4,1996)))

对于所有变量,将保留更常见级别的级别并映射到不太常见级别的“其他”(查看table(oldx))。但是,我想知道在 R 中是否已经有标准的方法可以做到这一点。另外,还有什么需要注意的吗?

谢谢

4

0 回答 0