7

我有一个数据集,其中样本按列分组。以下示例数据集类似于我的数据格式:

a = c(1,3,4,6,8)
b = c(3,6,8,3,6)
c = c(2,1,4,3,6)
d = c(2,2,3,3,4)

mydata = data.frame(cbind(a,b,c,d))

当我使用上述数据集在 Excel 中执行单因素方差分析时,我得到以下结果:

在此处输入图像描述

我知道 R 中的典型格式如下:

group  measurement
a      1
a      3
a      4
.      .
.      .
.      .
d      4

在 R 中执行 ANOVA 的命令是使用aov(group~measurement, data = mydata). 如何使用按列而不是按行组织的样本在 R 中执行单因素方差分析? 换句话说,如何使用 R 复制 excel 结果?非常感谢您的帮助。

4

1 回答 1

13

您以长格式堆叠它们:

mdat <- stack(mydata)
mdat
   values ind
1       1   a
2       3   a
3       4   a
4       6   a
5       8   a
6       3   b
7       6   b
snipped output

> aov( values ~ ind, mdat)
Call:
   aov(formula = values ~ ind, data = mdat)

Terms:
                 ind Residuals
Sum of Squares  18.2      65.6
Deg. of Freedom    3        16

Residual standard error: 2.024846 
Estimated effects may be unbalanced

鉴于警告,使用它可能更安全lm

> anova(lm(values ~ ind, mdat))
Analysis of Variance Table

Response: values
          Df Sum Sq Mean Sq F value Pr(>F)
ind        3   18.2  6.0667  1.4797 0.2578
Residuals 16   65.6  4.1000               
> summary(lm(values~ind, mdat))

Call:
lm(formula = values ~ ind, data = mdat)

Residuals:
   Min     1Q Median     3Q    Max 
 -3.40  -1.25   0.00   0.90   3.60 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   4.4000     0.9055   4.859 0.000174 ***
indb          0.8000     1.2806   0.625 0.540978    
indc         -1.2000     1.2806  -0.937 0.362666    
indd         -1.6000     1.2806  -1.249 0.229491    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 2.025 on 16 degrees of freedom
Multiple R-squared: 0.2172, Adjusted R-squared: 0.07041 
F-statistic:  1.48 on 3 and 16 DF,  p-value: 0.2578 

请不要问我为什么 Excel 给出不同的答案。在统计数据方面,Excel 通常被证明是非常不可靠的。Excel 有责任解释为什么它不能提供与 R 相媲美的答案。

针对评论进行编辑:Excel 数据分析包 ANOVA 过程创建输出,但它不使用 Excel 函数进行该过程,因此当您更改派生数据单元格中的数据时,然后按 F9,或等价的菜单重新计算命令,输出部分不会有任何变化。用户和数值问题的这个和其他来源都记录在 David Heiser 评估 Excel 统计计算问题的各个页面中:http ://www.daheiser.info/excel/frontpage.htmlHeiser 开始了他现在至少十年之久的努力,期望微软会对这些错误负责,但他们一直忽视他和其他人在识别错误​​和建议更好的程序方面所做的努力。在 BD McCullough 编辑的2008 年 6 月号“Computational Statistics & Data Analysis”中还有一个 6 节的特别报告,涵盖了 Excel 的各种统计问题。

于 2013-01-07T23:59:33.690 回答