2

考虑以下:

> foo
 [1]   0   0 159  24   0 829   0 157  46  12   5   5 166 166   5  12   5   5 166 166   5  35
> mean(foo)
[1] 89.45455
> summary(fivenum(foo))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      0       5      12     201     159     829 

什么是smeg?我不明白为什么 Fivenum 计算的数字与“平均值”不同。我想问题出在我身上,但我无法弄清楚我做错了什么。

4

2 回答 2

7

你为什么summary打电话fivenum

比较:

foo <- c(0, 0, 159, 24, 0, 829, 0, 157, 46, 12, 5, 5, 166, 166, 5, 12, 
         5, 5, 166, 166, 5, 35)
> mean(foo)
[1] 89.45455
> summary(foo)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00    5.00   12.00   89.45  158.50  829.00 
> fivenum(foo)
[1]   0   5  12 159 829
> mean(fivenum(foo))
[1] 201
> summary(fivenum(foo))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      0       5      12     201     159     829 

fivenum返回长度为 5 的向量,“返回输入数据的 Tukey 的五个数字摘要(最小值、下铰链、中值、上铰链、最大值)。” . 请注意,那里没有提到mean:)

因此,当您这样做时,summary(fivenum(foo))您正在计算 vector 的汇总统计数据c(0, 5, 12, 159, 829)。对于那个向量,mean确实是 201。

于 2013-04-11T06:09:37.100 回答
2

我想在这里再补充几点,因为我看到一些人对 summary() 和 Fivenum() 给出的四分位数感到困惑。

首先 - summary() 给出以下汇总统计数据:[最小值] [第一个四分位数] [中位数] [平均值] [第三个四分位数] [最大值]

然而,

Fivenum() 返回 Tukey 的五个数字摘要,即 [最小值] [下铰链] [中值] [上铰链] [最大值]

混乱来了——四分位数和下/上铰链有什么区别?

让我用一个例子来解释 - 在 R 中试试这个:

首先 - 具有奇数个值的向量“y”(本例中为 5)

> > y=c(2, 5, 8, 15, 8)
> > summary(y)    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
>     2.0     5.0     8.0     7.6     8.0    15.0 
> > fivenum(y) [1]  2  5  8  8 15

如您所见,结果是相同的,除了 summary() 给出的平均值以及 Fivenum() 显示的值。

现在我只包含一个变量(新值:12)并将这个向量定义为“z”;请注意,向量计数现在是偶数(6 个值)

> z=c(2, 5, 8, 12, 15, 18)
> summary(z)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2.00    5.75   10.00   10.00   14.25   18.00 
> fivenum(z)
[1]  2  5 10 15 18

现在看看区别 - 虽然 summary() 给了你四分位数(基于四分位数或百分位数公式的计算值),这就是 Fivenum() 所做的 - 让它变得非常简单 - 你可以在没有数学计算的情况下做到这一点:

Fivenum() 输出说明:

首先,由 Fivenum() 给出的最小值、中值和最大值是直截了当的!

下铰链 =(所有值的中值)左侧的值的中值 = 小于 10 的值的中值 = (2,5,8) 的中值 = 5

上铰链 = (MEDIAN OF ALL VALUES) 右侧的值的中值 = 大于 10 的值的中值 = (12,15,18) 的中值 = 15

于 2015-09-23T14:41:16.673 回答