1

我正在尝试使用numpy.

X = [1, 1, 1, 3, 4, 5, 5, 7, 8, 9, 10, 1000]

我会做以下事情:

quartiles = np.percentile(X, range(0, 100, 25))
quartiles
# array([1.  ,  2.5 ,  5.  ,  8.25])

但这是不正确的,因为第 1 和第 3 个四分位数应分别为 2 和 8.5。

这可以如下所示:

Q1 = np.median(X[:len(X)/2])
Q3 = np.median(X[len(X):])
Q1, Q3
# (2.0, 8.5)

我无法理解np.percentile正在做什么来给出不同的答案。对此有任何启示,我将不胜感激。

4

1 回答 1

2

没有对错之分,只是计算百分位数的不同方法百分位数在连续情况下是一个定义明确的概念,对于离散样本则更少:不同的方法不会对大量观察产生影响(与重复的数量),但实际上对于小样本很重要,您需要逐案弄清楚什么更有意义。

要获得所需的输出,您应该在百分位函数中指定插值 = 'midpoint':

quartiles = np.percentile(X, range(0, 100, 25), interpolation = 'midpoint')
quartiles    # array([ 1. ,  2. ,  5. ,  8.5])

我建议你看看文档http://docs.scipy.org/doc/numpy/reference/generated/numpy.percentile.html

于 2017-03-16T15:47:13.073 回答