40

Multiple R-squared有人可以向统计上的天真者解释和之间的区别Adjusted R-squared吗?我正在做一个单变量回归分析,如下所示:

 v.lm <- lm(epm ~ n_days, data=v)
 print(summary(v.lm))

结果:

Call:
lm(formula = epm ~ n_days, data = v)

Residuals:
    Min      1Q  Median      3Q     Max 
-693.59 -325.79   53.34  302.46  964.95 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2550.39      92.15  27.677   <2e-16 ***
n_days        -13.12       5.39  -2.433   0.0216 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216 
4

4 回答 4

61

调整后的 R 平方中的“调整”与变量的数量和观察的数量有关。

如果您继续向模型中添加变量(预测变量),R 平方会有所改善——也就是说,预测变量似乎可以解释方差——但其中一些改善可能仅是由于偶然性。因此,调整后的 R 平方试图通过考虑比率 (N-1)/(Nk-1) 来纠正这一点,其中 N = 观察数和 k = 变量数(预测变量)。

在您的情况下,这可能不是问题,因为您只有一个变量。

一些参考资料:

  1. 多高,R 平方?
  2. 拟合优度统计
  3. 多重回归
  4. 回复:什么是多元回归中的“调整后的 R^2”
于 2010-05-20T03:09:19.880 回答
8

R 平方不依赖于模型中的变量数量。调整后的 R 平方为。

调整后的 R 平方增加了向模型添加与您试图解释的变量不相关的变量的惩罚。您可以使用它来测试变量是否与您试图解释的事物相关。

Adjusted R-squared 是 R-squared 添加了一些除法以使其取决于模型中变量的数量。

于 2010-05-20T03:16:22.227 回答
8

调整后的 R 平方接近但不同于 R2 的值。它不是基于解释的平方和 SSR 和总平方和 SSY,而是基于总体方差(我们通常不计算的量),s2T = SSY/(n - 1) 和误差方差 MSE (来自 ANOVA 表)并计算如下:调整后的 R 平方 = (s2T - MSE) / s2T。

由于添加了解释变量,这种方法为判断拟合改进提供了更好的基础,但它没有 R2 所具有的简单概括解释。

如果我没有弄错,您应该验证调整后的 R-squared 和 R-squared 的值如下:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T

另一方面,R2 为:SSR/SSY,其中 SSR = SSY - SSE

attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY 
于 2010-05-20T06:53:34.907 回答
2

请注意,除了预测变量的数量外,上面的调整后的 R 平方公式还会根据样本量进行调整。一个小样本将给出一个看似大的 R 平方。

Ping Yin & Xitao Fan, J. of Experimental Education 69(2): 203-224,“Estimating R-squared shrinkage in multiple regression”,比较了调整 r-squared 的不同方法,得出的结论是上面引用的常用方法是不好。他们推荐 Olkin & Pratt 配方。

However, I've seen some indication that population size has a much larger effect than any of these formulas indicate. I am not convinced that any of these formulas are good enough to allow you to compare regressions done with very different sample sizes (e.g., 2,000 vs. 200,000 samples; the standard formulas would make almost no sample-size-based adjustment). I would do some cross-validation to check the r-squared on each sample.

于 2011-12-29T23:31:32.737 回答