0

可能重复:
构建模型时需要许多变量的简短公式

我有一个很大的数据框(112 个变量),我想对使用 R 进行逐步逻辑回归。我知道如何设置glm模型和stepAIC模型,但我不想输入所有标题来输入自变量。有没有一种快速的方法可以为glm模型提供一个完整的数据框作为自变量,以便它将每一列识别为要包含在模型中的 x 变量?我试过:

ft<-glm(MFDUdep~MFDUind, family=binomial)

但它不起作用(错误的数据类型)。MFDUdep 和 MFDUind 都是数据帧,MFDUind包含 111 个“x”变量和MFDUdep一个“y”。

4

1 回答 1

7

您需要.公式符号中的特殊符号。此外,将响应和预测变量放在单个数据框中可能会更好。

尝试:

MFDU <- cbind(MFDUdep, MFDUind)
ft <- glm(y ~ ., data = MFDU, family = binomial)

既然我已经给了你绳子,我有义务至少警告你可能会被吊死……

您采用的方法通常不是推荐的方法,除非模型的目的可能是预测。所选变量的回归系数可能有很大的偏差,因此如果您将其用于启发,请重新考虑您的方法。

您还需要大量观察才能在模型中允许 100 多个术语。

存在更好的替代方案;例如,请参阅glmnet包中的一种方法,该方法允许对一组系数进行脊、套索或两者(弹性网络)约束,这允许以少量额外偏差为代价来最小化模型误差。

于 2012-12-27T18:21:07.750 回答