2

我想在不改变数字位置的情况下对一个 numpy 数组进行排名。我可以使用下面的 numpy 函数来做到这一点,但它也一直在对“NaN”值进行排名,我怎样才能让它忽略它们而只对实数值进行排名。任何帮助深表感谢!谢谢!

这是我的代码:

import numpy as np

hr=[]
for line in open('file.txt' ,'r'):
    hr.append(line.strip().split('\t'))

tf=[]   
for i in range(1,len(hr)):
    print hr[i][1:13]
    tf.append(hr[i][1:13])

for rows in range(0,len(tf)):
    array = np.array([tf[rows]],dtype(float))
    print array
    order = array.argsort()
    ranks = order.argsort()
    print ranks    

在这里,每个数组行都来自 tf:

array=['NaN', '20', '383.333', 'NaN', 'NaN', 'NaN', '5', '100', '129', '122.5', 'NaN', 'NaN']

期望的输出:

ranks=array['NaN', 1, 5, 'NaN', 'NaN', 'NaN', 0, 2, 4, 3, 'NaN', 'NaN']

上面代码的实际输出:

ranks=array([ 6, 3, 4, 7, 8, 9, 5, 0, 2, 1, 10, 11])

我是 python 新手,所以任何帮助表示赞赏!

4

1 回答 1

3

如果你有 scipy,mstats.rankdata基本上可以满足你的需求:

import scipy.stats.mstats as mstats
import numpy as np

array = np.array(map(float, ['NaN', '20', '383.333', 'NaN', 'NaN', 'NaN', '5', '100', '129', '122.5', 'NaN', 'NaN']))

np.ma.masked_invalid掩盖nan值。mstats.rankdata对非屏蔽值进行排名,并将 0 分配给屏蔽值。

ranks = mstats.rankdata(np.ma.masked_invalid(array))
print(ranks)
# [ 0.  2.  6.  0.  0.  0.  1.  3.  5.  4.  0.  0.]

现在我们只是稍微修饰一下以获得所需的输出:

ranks[ranks == 0] = np.nan
ranks -= 1
print(ranks)
# [ nan   1.   5.  nan  nan  nan   0.   2.   4.   3.  nan  nan]
于 2012-09-20T20:04:11.810 回答