1

我已经对一组真实值进行了排序,例如X,从某个未知分布中抽取。我想为这些数据绘制一个箱线图。

在最简单的情况下,我需要知道五个值:minQ1medianQ3max

微不足道,min = X[0],max = X[length(X)-1]和可能median = X[ceil(length(X)/2)]。但我想知道如何确定下四分位数Q1Q3.

X = [1,2,4]当我使用 MATLAB绘图时,我得到以下结果:

在此处输入图像描述

在我看来,如何获得值Q1 = 1.25和似乎有一些魔法Q3 = 3.5,但我不知道魔法是什么。有人有这方面的经验吗?

4

2 回答 2

1

中位数将数据分成两半。上半年的中位数=Q1,下半年的中位数=Q3。

更多信息:http ://www.purplemath.com/modules/boxwhisk.htm


注意 MatLab 箱线图:Q1 和 Q3 可能在 MatLab 中以不同的方式计算,我会尝试使用更多的测试数据。用我的方法,Q1 应该是 1,Q3 应该是 4。


编辑:

MatLab 所做的可能计算是前半部分的中位数和第一个数字之间的差异,并取其四分之一。将其添加到第一个数字以获得 Q1。这同样(大致)适用于第三季度:取中位数和最高数之间的差,然后从最高数中减去四分之一。那是Q3。

于 2012-05-16T22:39:46.063 回答
1

如果您转到箱形图的原始定义(查找 John Tukey),则使用中点作为中点(即数据集中 1、2、4 中的 2)。端点是最小值和最大值。

盒子的顶部和底部不完全由四分位数定义,而是称为“铰链”。铰链是数据上半部分和下半部分的中位数。如果有奇数个观测值,则使用整个集合的中值来确定两个铰链。下铰链是 (1,2) 或 1.5 的中位数。顶部铰链是 (2,4) 或 3 的中位数。

实际上,箱线图的四分位数有几十种定义(维基百科:“在选择四分位数值方面没有普遍的共识”)。如果你想合理化 MatLab 的箱线图,你必须检查它的文档。否则,您可以用谷歌搜索您的大脑以尝试找到与结果匹配的方法。

Minitab 为数据集中的铰链提供 1 和 4。Excel 的 PERCENTILE 函数给出 1.5 和 3,至少在这种情况下偶然匹配 Tukey 的算法。

于 2012-05-19T15:54:25.983 回答