10

首先,我应该说明我的统计知识相当有限,所以如果我的问题看起来微不足道或者甚至没有意义,请原谅我。

我的数据似乎不是正态分布的。通常,当我绘制置信区间时,我会使用平均值 +- 2 个标准差,但我认为这对于非均匀分布是不可接受的。我的样本量目前设置为 1000 个样本,这似乎足以确定它是否是正态分布。

我使用 Matlab 进行所有处理,那么 Matlab 中是否有任何函数可以轻松计算置信区间(比如 95%)?

我知道有 'quantile' 和 'prctile' 函数,但我不确定这是否是我需要使用的。函数“mle”还返回正态分布数据的置信区间,尽管您也可以提供自己的 pdf。

我可以使用 ksdensity 为我的数据创建一个 pdf,然后将该 pdf 输入到 mle 函数中以获得置信区间吗?

另外,我将如何确定我的数据是否呈正态分布。我的意思是我目前可以通过查看 ksdensity 的直方图或 pdf 来判断,但有没有办法定量测量它?

谢谢!

4

5 回答 5

10

所以这里有几个问题。这里有一些建议

你是对的,1000 个样本的平均值应该是正态分布的(除非你的数据是“重尾”,我假设不是这种情况)。要获得1-alpha平均值的置信区间(在您的情况下alpha = 0.05),您可以使用“norminv”函数。例如,假设我们想要数据样本的平均值为 95% CI X,那么我们可以输入

N = 1000;             % sample size
X = exprnd(3,N,1);    % sample from a non-normal distribution
mu = mean(X);         % sample mean (normally distributed)
sig = std(X)/sqrt(N); % sample standard deviation of the mean
alphao2 = .05/2;      % alpha over 2   
CI = [mu + norminv(alphao2)*sig ,...
      mu - norminv(alphao2)*sig  ]

CI =

2.9369    3.3126

可以通过多种方式测试数据样本是否为正态分布。一种简单的方法是使用 QQ 图。为此,请使用 'qqplot(X)'X你的数据样本在哪里。如果结果近似为一条直线,则样本是正常的。如果结果不是一条直线,则样本不正常。

例如,如果X = exprnd(3,1000,1)如上所述,样本是非正态的并且 qqplot 是非常非线性的:

X = exprnd(3,1000,1);
qqplot(X);

替代文字

另一方面,如果数据正常,qqplot 将给出一条直线:

qqplot(randn(1000,1))

替代文字

于 2010-12-20T21:16:42.270 回答
2

您也可以考虑通过bootci函数使用引导。

于 2011-07-21T05:31:11.170 回答
2

您可以使用[1]中提出的方法:

MEDIAN +/- 1.7(1.25R / 1.35SQN)

其中 R = 四分位距,SQN = N 的平方根

这通常用于缺口箱线图,这是一种用于非正态数据的有用数据可视化。如果两个中位数的缺口不重叠,则在大约 95% 的置信水平下,中位数近似显着不同。

[1] McGill, R., JW Tukey 和 WA Larsen。“箱线图的变体”。美国统计学家。卷。32,第 1 期,1978 年,第 12-16 页。

于 2011-09-07T14:30:44.593 回答
1

您确定需要置信区间还是只需要随机数据的 90% 范围?

如果你需要后者,我建议你使用 prctile()。例如,如果您有一个包含随机变量的独立同分布样本的向量,您可以通过运行获得一些有用的信息

y = prcntile(x, [5 50 95])

这将在 [y(1), y(3)] 中返回 90% 的样本出现的范围。在 y(2) 中,您得到样本的中位数。

尝试以下示例(使用正态分布变量):

t = 0:99;
tt = repmat(t, 1000, 1);
x = randn(1000, 100) .* tt + tt;  % simple gaussian model with varying mean and variance
y = prctile(x, [5 50 95]);

plot(t,  y);
legend('5%','50%','95%')
于 2010-12-21T05:50:08.713 回答
-2

我没有使用Matlab,但根据我对统计学的理解,如果你的分布不能被认为是正态分布,那么你必须把它当作学生t分布并计算置信区间和准确性。

http://www.stat.yale.edu/Courses/1997-98/101/confint.htm

于 2013-04-08T07:31:06.503 回答