我想在这里再补充几点,因为我看到一些人对 summary() 和 Fivenum() 给出的四分位数感到困惑。
首先 - summary() 给出以下汇总统计数据:[最小值] [第一个四分位数] [中位数] [平均值] [第三个四分位数] [最大值]
然而,
Fivenum() 返回 Tukey 的五个数字摘要,即 [最小值] [下铰链] [中值] [上铰链] [最大值]
混乱来了——四分位数和下/上铰链有什么区别?
让我用一个例子来解释 - 在 R 中试试这个:
首先 - 具有奇数个值的向量“y”(本例中为 5)
> > y=c(2, 5, 8, 15, 8)
> > summary(y) Min. 1st Qu. Median Mean 3rd Qu. Max.
> 2.0 5.0 8.0 7.6 8.0 15.0
> > fivenum(y) [1] 2 5 8 8 15
如您所见,结果是相同的,除了 summary() 给出的平均值以及 Fivenum() 显示的值。
现在我只包含一个变量(新值:12)并将这个向量定义为“z”;请注意,向量计数现在是偶数(6 个值)
> z=c(2, 5, 8, 12, 15, 18)
> summary(z)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.00 5.75 10.00 10.00 14.25 18.00
> fivenum(z)
[1] 2 5 10 15 18
现在看看区别 - 虽然 summary() 给了你四分位数(基于四分位数或百分位数公式的计算值),这就是 Fivenum() 所做的 - 让它变得非常简单 - 你可以在没有数学计算的情况下做到这一点:
Fivenum() 输出说明:
首先,由 Fivenum() 给出的最小值、中值和最大值是直截了当的!
下铰链 =(所有值的中值)左侧的值的中值 = 小于 10 的值的中值 = (2,5,8) 的中值 = 5
上铰链 = (MEDIAN OF ALL VALUES) 右侧的值的中值 = 大于 10 的值的中值 = (12,15,18) 的中值 = 15