3

为什么 Matlab 的 signrank 函数在翻转数据点的符号时返回相同的有符号秩统计值?

我有一系列数据点存储在 vector 中x。我signrank(x)用来做符号等级测试。

Matlab 说

当您对一个样本使用测试时,W 是观测值与假设中值 M0 之间的正差秩和(使用 signrank(x) 时为 0,使用 signrank(x,m) 时为 m ))。

所以我认为结果signrank(x)signrank(-x)应该不同。但是我经历了一些例子,我得到了 和 相同的符号等级统计x-x。Matlab signrank 函数中的有符号秩统计是如何定义的?

谢谢!

4

2 回答 2

2

谢谢!实际上,统计量是正差异秩和与负差异秩和之间的最小值。我不明白为什么它需要最低限度。你?

有趣的问题,感谢您提供指向 matlab 代码的链接。是的,这也让我摸不着头脑,他们肯定会以一种卷曲的方式来做这件事,大概是为了提高计算效率。然而令人惊讶的是,它实际上确实做了签名排名,与之前发布的完全一样。

这是它的工作原理(我在下面粘贴了相关的几行代码以供参考)。

让我将P表示为所有正排名的总和(对应于正分数的排名),将N表示为所有负排名的总和,最后将 A表示为所有排名的绝对总和。显然A = P + N (顺便说一句。请注意,我所说的“N”是实际代码中的变量“w”。)

通过算术级数,A = n*(n+1)/2。正如您所说,min(w,(n+1)*n/2-w) 行实际上返回NP (=AN),以最小值为准。

但是现在看看我在下面粘贴的代码的最后一行。因此,分子是min(N,P) - A/2

现在,如果N是最小值,则返回N-(P+N)/2,它等于-(P - N)/2

但是,如果P是最小值,则返回P-(P+N)/2,它等于-(N - P)/2

因此,无论哪种情况,它实际上都是返回正负秩和的绝对差(负),正如之前以简化形式发布的那样,

| Sum{ sign(Xi) rank(|Xi|) } |

顺便提一句。他们使用绝对差的负数的原因很简单,因为它使他们不必在以后找到互补的cfd。

来自 signrank 代码的片段以供参考。

w = sum(tierank(neg));
w = min(w, n*(n+1)/2-w);
...
z = (w-n*(n+1)/4) / sqrt((n*(n+1)*(2*n+1) - tieadj)/24);

编辑:

为什么取绝对值?z 要有渐近正态性,是不是不应该取绝对值?

我对它的理解是它实际上并不正常,它是“折叠正常”。即折叠成正半平面。这就是为什么 p 值计算为,

p = 2*(1 - normcdf(z,0,1));

(在旁边)。我知道在实际代码中,他们使用“z”的负数来避免在那里需要 cdf 补码,但这是一回事。

p 值乘以 2 以说明折叠分布。方便的是,这也与将其称为“双尾”p 值完全相同。

想一想如果我们在这里不使用绝对值会发生什么。假设我们采用PN并且 N 大于 P。在这种情况下,p 值2*(1-normcdf(z,0,1))将评估为大于1,因此这不是一个好主意。:)

于 2013-04-20T05:51:20.543 回答
1

为什么 Matlab 的 signrank 函数在翻转数据点的符号时返回相同的有符号秩统计值?

因为 signrank 的单参数形式,例如 singrank(x),返回零假设Prob(x>0)==0.5正确的可能性 (pval)。

并且通过对称性,Prob(x>0)==0.5正确的可能性与Prob(x<0)==0.5正确的可能性完全相同。

更新:

“谢谢!我的问题是:即使 x 在 0 附近不对称,signrank() 仍然为 x 和 -x 返回相同的统计值。” - 蒂姆

是的,我理解你的困惑,对称性并不完全明显。signrank() 的结果本质上是对median(x)==0的可能性的估计。所以想象一下我们让x不对称,比如说给每个元素加一个。现在“质量”被移动了,所以它更多地位于正半数线上,所以 signrank(x) 将返回一个非常小的(接近于零)的可能性,即中值(x)==0。但是,希望您能看到,现在-x移动了,因此它的质量更多地位于负半数线上,因此中位数(-x)==0也同样不太可能。希望有帮助。

顺便提一句。用于发现这种可能性的实际(中间)统计数据是:

| Sum{ sign(Xi) rank(|Xi|) } |

您可以看到这对于 -X 是完全对称的。

于 2013-04-18T18:16:59.930 回答