r - R：QQ 图中的样本量注意事项

Question

通常使用图形来评估给定样本的正态性。然而 QQ 图需要大样本量才能可靠地代表被抽样的总体。在一些文本中说，至少一千个样本量是可取的。这是描述这一点的示例 R 代码：

par(mfrow=c(2,3))
for(i in c(10, 100, 1e+3, 1e+4, 1e+5, 1e+6)){
  data <- rnorm(i, mean = 0, sd = 1)
  qqnorm(data, main=sprintf("Sample Size=%d", i)); qqline(data, col='red')
}

该代码产生以下内容：

在此处输入图像描述

问题1：我的样本有多大，比如理论上的-/+6 sigma？理论上，6 sigma 事件发生（正常 dist）发生 1 in 506797346 ！你怎么看？

问题 2：无论样本大小，在极端值上总会有几个点偏离趋势线。这似乎是“正常”和预期的行为。有人可以发布背后的理由吗？

谢谢，里亚德

score 3 · Accepted Answer

就回答您的问题的一般回答而言，我首先建议您参考一篇很好的帖子，该帖子很好地涵盖了该主题。下面的评论总结了作者在那里所做的工作。

一般来说，使用 QQ 图，基本思想是根据相关分布计算每个数据点的理论期望值。如果数据遵循选定的分布，则 QQ 图上的点应大致在直线上。

作为帮助指定如何解释图表的摘要，这里有一些提示。请注意，这是下面捕获的某些解释的主观因素：

如果理论分布和数据分布的分位数一致，则标绘点落在该线上或附近。
如果理论分布和数据分布仅在位置或尺度上有所不同，则图上的点落在线上或线附近。斜率和截距是理论分布的尺度和位置参数的视觉估计。
对于位置和比例参数的图形估计，QQ 图比概率图更方便，因为 QQ 图的 - 轴是线性缩放的。另一方面，概率图更便于估计百分位数或概率。

我在工作中使用的SAS，对QQ剧情解读有很好的讨论。正如他们所指出的，我引用：

“一般来说，QQ 图中的点模式可能不是线性的原因有很多。Chambers 等人 (1983) 和 Fowlkes (1987) 讨论了对常见的线性偏离的解释。它们提供了很好的起点。这里有一个小总结：

除了几个点之外，所有点都在一条线上 -> 数据中的异常值
图案的左端位于线下方；模式的右端在线上方 -> 数据分布两端的长尾
图案的左端在线上方；模式的右端低于线 -> 数据分布两端的短尾
斜率从左到右增加的曲线模式 -> 数据分布向右倾斜
斜率从左到右减小的曲线模式 -> 数据分布向左倾斜
阶梯模式（高原和间隙）-> 数据已四舍五入或离散”

最后，在样本量方面，在判断qq图与直线的接近程度时应考虑样本量。也就是说，如果 n 的数量很少，您会期望在 QQ 图输出的行尾出现一些随机变化偏差。

score 1 · Accepted Answer

我不认为这个问题形成得很好，这对我来说并不奇怪，因为我与教授标准六西格码课程的人的经验是，他们接受了一种宗教，而不是努力学习真正的统计数据。我并不是说您是这样的人，这是基于大约 10 年前一家公司 (GE) 的流行文化中的抽样得出的观察结果，因此它只是一个小样本。任一极端点的可变性将遵循极值理论的分布参数。

所有分布都有尾部行为，其特点是分布数量少。如果您考虑决定极端分位数的因素，例如第 99.99 个百分位数，即使四分位数边界以高精度确定，采样行为也只有很少的点数。因为它们每个在一侧都有 25% 的点，并且另一方面是 75%。如果样本量为 100，那么谈论 99.5 个百分位数是没有任何意义的，对于 1000 个样本量来说，第 99.95 个百分位数也是如此，我希望你可以看到这种模式正在出现。谷歌搜索极值理论。

这也是错误的论坛。您应该通过“在理论上达到 -/+6 sigma”的意思来澄清。“击中”这个词实际上是什么意思？一旦你定义了“命中”的含义，你应该在 CrossValidated.com 上重新发布问题

r - R：QQ 图中的样本量注意事项

2 回答 2

Related

Reference