0

通常使用图形来评估给定样本的正态性。然而 QQ 图需要大样本量才能可靠地代表被抽样的总体。在一些文本中说,至少一千个样本量是可取的。这是描述这一点的示例 R 代码:

par(mfrow=c(2,3))
for(i in c(10, 100, 1e+3, 1e+4, 1e+5, 1e+6)){
  data <- rnorm(i, mean = 0, sd = 1)
  qqnorm(data, main=sprintf("Sample Size=%d", i)); qqline(data, col='red')
} 

该代码产生以下内容:

在此处输入图像描述

问题1:我的样本有多大,比如理论上的-/+6 sigma?理论上,6 sigma 事件发生(正常 dist)发生 1 in 506797346 !你怎么看 ?

问题 2:无论样本大小,在极端值上总会有几个点偏离趋势线。这似乎是“正常”和预期的行为。有人可以发布背后的理由吗?

谢谢,里亚德

4

2 回答 2

3

就回答您的问题的一般回答而言,我首先建议您参考一篇很好的帖子,该帖子很好地涵盖了该主题。下面的评论总结了作者在那里所做的工作。

一般来说,使用 QQ 图,基本思想是根据相关分布计算每个数据点的理论期望值。如果数据遵循选定的分布,则 QQ 图上的点应大致在直线上。

作为帮助指定如何解释图表的摘要,这里有一些提示。请注意,这是下面捕获的某些解释的主观因素:

  • 如果理论分布和数据分布的分位数一致,则标绘点落在该线上或附近。

  • 如果理论分布和数据分布仅在位置或尺度上有所不同,则图上的点落在线上或线附近。斜率和截距是理论分布的尺度和位置参数的视觉估计。

  • 对于位置和比例参数的图形估计,QQ 图比概率图更方便,因为 QQ 图的 - 轴是线性缩放的。另一方面,概率图更便于估计百分位数或概率。

我在工作中使用的SAS,对QQ剧情解读有很好的讨论。正如他们所指出的,我引用:

“一般来说,QQ 图中的点模式可能不是线性的原因有很多。Chambers 等人 (1983) 和 Fowlkes (1987) 讨论了对常见的线性偏离的解释。它们提供了很好的起点。这里有一个小总结:

  • 除了几个点之外,所有点都在一条线上 -> 数据中的异常值
  • 图案的左端位于线下方;模式的右端在线上方 -> 数据分布两端的长尾
  • 图案的左端在线上方;模式的右端低于线 -> 数据分布两端的短尾
  • 斜率从左到右增加的曲线模式 -> 数据分布向右倾斜
  • 斜率从左到右减小的曲线模式 -> 数据分布向左倾斜
  • 阶梯模式(高原和间隙)-> 数据已四舍五入或离散”

最后,在样本量方面,在判断qq图与直线的接近程度时应考虑样本量。也就是说,如果 n 的数量很少,您会期望在 QQ 图输出的行尾出现一些随机变化偏差。

于 2014-04-06T07:45:19.657 回答
1

我不认为这个问题形成得很好,这对我来说并不奇怪,因为我与教授标准六西格码课程的人的经验是,他们接受了一种宗教,而不是努力学习真正的统计数据。我并不是说您是这样的人,这是基于大约 10 年前一家公司 (GE) 的流行文化中的抽样得出的观察结果,因此它只是一个小样本。任一极端点的可变性将遵循极值理论的分布参数。

所有分布都有尾部行为,其特点是分布数量少。如果您考虑决定极端分位数的因素,例如第 99.99 个百分位数,即使四分位数边界以高精度确定,采样行为也只有很少的点数。因为它们每个在一侧都有 25% 的点,并且另一方面是 75%。如果样本量为 100,那么谈论 99.5 个百分位数是没有任何意义的,对于 1000 个样本量来说,第 99.95 个百分位数也是如此,我希望你可以看到这种模式正在出现。谷歌搜索极值理论。

这也是错误的论坛。您应该通过“在理论上达到 -/+6 sigma”的意思来澄清。“击中”这个词实际上是什么意思?一旦你定义了“命中”的含义,你应该在 CrossValidated.com 上重新发布问题

于 2014-04-06T23:32:21.890 回答