0

我正在尝试运行逐步回归,R其中包含 600 个奇数变量作为 .csv 文件标题中的列名。

如何将列名用作回归方程中的变量?

我对此非常陌生,并且我的理解有限,我可以将列保存为列表并将其用于运行 glm,例如

model.1 <- glm(x~ paste(list), family= poisson, link = logit).

非常感谢任何帮助。提前致谢

4

1 回答 1

3

如果您已正确读取数据(例如,header=TRUE如上面评论中指定的那样),您最终应该得到一个 600+ 列的数据框(x响应的 1 列,每个预测变量的列):我会调用现在这个mydata。在这种情况下,正如@TylerRinker 建议的那样,您可以只包含所有预测变量:glm(x~.,data=mydata,family=poisson)(logit 链接是默认链接;如果您想明确指定它,您可以说glm(x~.,data=mydata,family=poisson(link="logit"))。然后您可以使用step, 或stepAIC来自 MASS 包。

但是,我必须补充一点,除非您知道自己在做什么,否则从统计的角度来看,对 600 个变量进行逐步回归是一个非常非常非常糟糕的想法(谷歌类似于“逐步回归问题”或“逐步回归 Harrell ”)。我强烈建议您看一下类似glmnet包的东西,它采用了一种更明智的方法来使用大量预测变量进行建模。

于 2012-09-27T16:03:50.277 回答