谢谢!实际上,统计量是正差异秩和与负差异秩和之间的最小值。我不明白为什么它需要最低限度。你?
有趣的问题,感谢您提供指向 matlab 代码的链接。是的,这也让我摸不着头脑,他们肯定会以一种卷曲的方式来做这件事,大概是为了提高计算效率。然而令人惊讶的是,它实际上确实做了签名排名,与之前发布的完全一样。
这是它的工作原理(我在下面粘贴了相关的几行代码以供参考)。
让我将P表示为所有正排名的总和(对应于正分数的排名),将N表示为所有负排名的总和,最后将 A表示为所有排名的绝对总和。显然A = P + N (顺便说一句。请注意,我所说的“N”是实际代码中的变量“w”。)
通过算术级数,A = n*(n+1)/2。正如您所说,min(w,(n+1)*n/2-w) 行实际上返回N或P (=AN),以最小值为准。
但是现在看看我在下面粘贴的代码的最后一行。因此,分子是min(N,P) - A/2。
现在,如果N是最小值,则返回N-(P+N)/2,它等于-(P - N)/2。
但是,如果P是最小值,则返回P-(P+N)/2,它等于-(N - P)/2。
因此,无论哪种情况,它实际上都是返回正负秩和的绝对差(负),正如之前以简化形式发布的那样,
| Sum{ sign(Xi) rank(|Xi|) } |
顺便提一句。他们使用绝对差的负数的原因很简单,因为它使他们不必在以后找到互补的cfd。
来自 signrank 代码的片段以供参考。
w = sum(tierank(neg));
w = min(w, n*(n+1)/2-w);
...
z = (w-n*(n+1)/4) / sqrt((n*(n+1)*(2*n+1) - tieadj)/24);
编辑:
为什么取绝对值?z 要有渐近正态性,是不是不应该取绝对值?
我对它的理解是它实际上并不正常,它是“折叠正常”。即折叠成正半平面。这就是为什么 p 值计算为,
p = 2*(1 - normcdf(z,0,1));
(在旁边)。我知道在实际代码中,他们使用“z”的负数来避免在那里需要 cdf 补码,但这是一回事。
p 值乘以 2 以说明折叠分布。方便的是,这也与将其称为“双尾”p 值完全相同。
想一想如果我们在这里不使用绝对值会发生什么。假设我们采用PN并且 N 大于 P。在这种情况下,p 值2*(1-normcdf(z,0,1))将评估为大于1,因此这不是一个好主意。:)