3

我在区间 [0,1] 中有 2 个系列的 45 个值。第一个系列是人工生成的标准,第二个是计算机生成的(完整系列在这里http://www.copypastecode.com/74844/)。第一个系列按递减排序。

0.909090909 0.216196598
0.909090909 0.111282099
0.9 0.021432587
0.9 0.033901106
...
0.1 0.003099256
0   0.001084533
0   0.008882249
0   0.006501463

现在我要评估的是第二个系列中保留顺序的程度,因为第一个系列是单调的。皮尔逊相关系数为 0.454763067,但我认为这种关系不是线性的,所以这个值很难解释。

一种自然的方法是使用Spearman 等级相关性,在本例中为 0.670556181。我注意到,对于随机值,虽然 Pearson 非常接近 0,但 Spearman 等级相关性上升到 0.5,因此 0.67 的值似乎非常低。

你会用什么来评估这两个系列之间的顺序相似性?

4

1 回答 1

6

我要评估的是订单保留的程度

由于这是您关心的顺序(排名),因此 Spearman 排名相关性是这里更有意义的指标。

我注意到,对于随机值 [...],Spearman 等级相关性上升到 0.5

你如何生成这些随机值?我刚刚对使用 生成的一些随机数进行了一个简单的实验,但numpy我没有看到:

In [1]: import numpy as np

In [2]: import scipy.stats

In [3]: x = np.random.randn(1000)

In [4]: y = np.random.randn(1000)

In [5]: print scipy.stats.spearmanr(x, y)
(-0.013847401847401847, 0.66184551507218536)

第一个数字(-0.01)是秩相关系数;第二个数字 (0.66) 是相关的 p-value

于 2011-07-18T10:55:37.443 回答