Python 的 numpy 库对精美索引的“矢量化”有时会产生意想不到的结果。例如:
import numpy
a = numpy.zeros((1000,4), dtype='uint32')
b = numpy.zeros((1000,4), dtype='uint32')
i = numpy.random.random_integers(0,999,1000)
j = numpy.random.random_integers(0,3,1000)
a[i,j] += 1
for k in xrange(1000):
b[i[k],j[k]] += 1
在数组 'a' 和 'b' 中给出不同的结果(即元组 (i,j) 的出现在 'a' 中显示为 1 而不管是否重复,而重复在 'b' 中计数)。这很容易验证如下:
numpy.sum(a)
883
numpy.sum(b)
1000
还值得注意的是,花哨的索引版本比 for 循环快两个数量级。我的问题是:“numpy 是否有一种有效的方法来计算重复计数,如在提供的示例中使用 for 循环实现的那样?”