1

我在 4 个矩阵中存储了来自 4 种不同方法的生产 (q) 值。4 个矩阵中的每一个都包含来自不同方法的 q 个值:

Matrix_1 = 1 row x 20 column 

Matrix_2 = 100 rows x 20 columns 

Matrix_3 = 100 rows x 20 columns 

Matrix_4 = 100 rows x 20 columns 

列数表示年数。1 行将包含对应于 20 年的生产值。矩阵 2、3 和 4 的其他 99 行只是不同的实现(或模拟运行)。所以基本上矩阵 2,3 和 4 的其他 99 行是重复的情况(但由于随机数而不是精确值)。

考虑Matrix_1作为参考事实(或基本情况)。现在我想比较其他 3 个矩阵,Matrix_1看看这三个矩阵中的哪一个(每个都有 100 次重复)与Matrix_1.

这在 Matlab 中如何实现?

我手动知道,我们通过绘制 、 并绘制 和 的每个分布来使用置信区间( CI mean of Matrix_1) 。矩阵 2、3 和 4 中包含参考事实(或)的最大 CI 将是答案。mean of Matrix_2mean of Matrix_3mean of Matrix_4mean of Matrix_1

mean of Matrix_1 = (1 row x 1 column)

mean of Matrix_2 = (100 rows x 1 column)

mean of Matrix_3 = (100 rows x 1 column)

mean of Matrix_4 = (100 rows x 1 column)

我希望这个问题是明确的并且与 SO 相关。否则,请随时编辑/提出任何问题。谢谢!

编辑:我谈到的三种方法分别是 a1、a2 和 a3。这是我的结果:

ci_a1 =

  1.0e+008 *

   4.084733001497999
   4.097677503988565

ci_a2 =

  1.0e+008 *

   5.424396063219890
   5.586301025525149

ci_a3 =

  1.0e+008 *

   2.429145282593182
   2.838897116739112

p_a1 =

    8.094614835195452e-130

p_a2 =

    2.824626709966993e-072

p_a3 =

    3.054667629953656e-012

h_a1 = 1; h_a2 = 1;  h_a3 = 1

从这三种方法中,我的 CI 都没有包含mean ( = 3.454992884900722e+008)它的内部。那么我们仍然考虑p值来选择最好的结果吗?

4

2 回答 2

2

如果我理解正确,MATLAB 中的计算非常严格。

步骤 1-2(均值计算):

k1_mean = mean(k1);
k2_mean = mean(k2);
k3_mean = mean(k3);
k4_mean = mean(k4);

第 3 步,使用HIST绘制分布直方图:

hist([k2_mean; k3_mean; k4_mean]')

第 4 步。您可以进行 t 检验,将向量 2、3 和 4 与具有均值 k1_mean 和未知方差的正态分布进行比较。有关详细信息,请参阅测试

[h,p,ci] = ttest(k2_mean,k1_mean);
于 2010-09-25T06:46:24.313 回答
2

编辑:我误解了你的问题。请参阅 Yuk 的答案和以下评论。如果你想比较两个向量的分布而不是一个向量与单个值的分布,我的答案就是你需要的。显然,这里就是后者。

关于您的 t 检验,您应该记住,它们是针对“真实”均值进行测试的。给定每个矩阵的值数量和置信区间,猜测结果的标准偏差并不难。这是衡量结果“传播”的指标。现在,平均值的误差计算为结果的标准差除以观察次数。置信区间是通过将该标准误差与 appx 相乘来计算的。2.

此置信区间包含 95% 案例中的真实均值。因此,如果真实均值恰好位于该区间的边界,则 p 值为 0.05,均值越远,p 值越低。这可以解释为矩阵 2、3 或 4 中的值来自具有矩阵 1 中平均值的总体的机会。如果您看到 p 值,则可以说这些机会不存在。

所以你会看到,当值的数量变大时,置信区间变小,t 检验变得非常敏感。这告诉您,这三个矩阵与均值显着不同。如果您必须选择一个,无论如何我都会看一下发行版。否则,具有最接近平均值的那个似乎是一个很好的猜测。如果您想更深入地了解这一点,您也可以在 stats.stackexchange.com 上提问


你的问题和你的方法不是很清楚:

  • 所有列的分布是否相等?这很重要,因为两个分布可以具有相同的均值,但差异很大:

替代文字

  • 你不使用中心极限定理有什么原因吗?在我看来,这似乎是一种非常复杂的获得结果的方法,使用平均值分布接近正态分布的事实可以很容易地找到,其中 sd(mean) = sd(observations)/观察次数。为您节省相当多的工作 - 如果分布相似!-

现在,如果问题真的是分布的比较,您应该考虑查看qqplot以获得一般想法,并查看2-sample kolmogorov-smirnov 测试以进行正式测试。但是请阅读此测试,因为您必须了解它的作用才能正确解释结果。

附注:如果您对多个案例进行此测试,请确保您了解多重比较的问题并使用适当的更正,例如。Bonferroni 或 Dunn-Sidak。

于 2010-09-28T11:17:18.030 回答