-1

我有一个数据集,我将使用预测变量(例如Price )调用dataset1。我希望根据数据集中存在的其他n个预测变量获得一个不错的单一价格预测变量。但是如果n很大,我不能手动制作和检查所有这些模型,所以我希望使用这样的东西:

for (i in names(dataset1)) {
    model = lm(Price~i, dataset1)
    # Do stuff here with model, such as analyze R^2 values.
}

(我认为这会起作用,因为用 print(i) 替换 for 循环的内部会导致正确的名称。)错误如下:

Error in model.frame.default(formula = Price ~ i, data = dataset1, drop.unused.levels =    TRUE) : 
variable lengths differ (found for 'i')

有没有人建议处理有关 R 如何读取i变量的问题?我知道如何使用其他软件解决这个问题,但我想了解 R 的工作原理。

4

2 回答 2

2

*apply我会亲自去这里:

dat <- data.frame(price=1:10,y=10:1,z=1:10)
sapply(dat[2:3], function(q) coef(summary(lm(dat$price ~ q)))[2])

 y  z 
-1  1 

或获取包含完整模型结果的列表:

lapply(dat[2:3], function(q) coef(summary(lm(dat$price ~ q))))

$y
            Estimate   Std. Error       t value      Pr(>|t|)
(Intercept)       11 1.137008e-15  9.674515e+15 1.459433e-125
q                 -1 1.832454e-16 -5.457163e+15 1.423911e-123

$z
                Estimate   Std. Error      t value      Pr(>|t|)
(Intercept) 1.123467e-15 2.457583e-16 4.571429e+00  1.822371e-03
q           1.000000e+00 3.960754e-17 2.524772e+16 6.783304e-129

得到你提到的r平方值:

sapply(dat[2:3], function(q) summary(lm(dat$price ~ q))$r.squared) 
于 2013-03-06T21:30:54.643 回答
0

目前,您没有在名称中循环。尝试

for(i in 2:ncol(dataset1)) #assuming Price is column 1

然后参考

Price ~ dataset1[, i]

在你的循环中。

但我不确定从统计角度看你的方法。

于 2013-03-06T21:24:22.180 回答