通常使用图形来评估给定样本的正态性。然而 QQ 图需要大样本量才能可靠地代表被抽样的总体。在一些文本中说,至少一千个样本量是可取的。这是描述这一点的示例 R 代码:
par(mfrow=c(2,3))
for(i in c(10, 100, 1e+3, 1e+4, 1e+5, 1e+6)){
data <- rnorm(i, mean = 0, sd = 1)
qqnorm(data, main=sprintf("Sample Size=%d", i)); qqline(data, col='red')
}
该代码产生以下内容:
问题1:我的样本有多大,比如理论上的-/+6 sigma?理论上,6 sigma 事件发生(正常 dist)发生 1 in 506797346 !你怎么看 ?
问题 2:无论样本大小,在极端值上总会有几个点偏离趋势线。这似乎是“正常”和预期的行为。有人可以发布背后的理由吗?
谢谢,里亚德