我想计算一个大型(1,000,000 x 3,000)布尔 numpy 数组的索引权重总和。大布尔数组不经常更改,但权重在查询时出现,我需要非常快的答案,无需复制整个大数组,或将小权重数组扩展到大数组的大小。
结果应该是一个包含 1,000,000 个条目的数组,每个条目的权重数组条目的总和对应于该行的 True 值。
我研究过使用掩码数组,但它们似乎需要构建一个与我的大型布尔数组大小相同的权重数组。
下面的代码给出了正确的结果,但在乘法步骤中我买不起那个副本。甚至不需要乘法,因为值数组是布尔值,但至少它可以正确处理广播。
我是 numpy 的新手,并且很喜欢它,但我即将因为这个特殊问题而放弃它。我已经学会了足够的 numpy 来知道远离任何在 python 中循环的东西。
我的下一步是用 C 语言编写这个例程(顺便说一句,它的另一个好处是让我通过使用位而不是字节来节省内存。)
除非你们中的一位 numpy 大师可以将我从 cython 中拯救出来?
from numpy import array, multiply, sum
# Construct an example values array, alternating True and False.
# This represents four records of three attributes each:
# array([[False, True, False],
# [ True, False, True],
# [False, True, False],
# [ True, False, True]], dtype=bool)
values = array([(x % 2) for x in range(12)], dtype=bool).reshape((4,3))
# Construct example weights, one for each attribute:
# array([1, 2, 3])
weights = array(range(1, 4))
# Create expensive NEW array with the weights for the True attributes.
# Broadcast the weights array into the values array.
# array([[0, 2, 0],
# [1, 0, 3],
# [0, 2, 0],
# [1, 0, 3]])
weighted = multiply(values, weights)
# Add up the weights:
# array([2, 4, 2, 4])
answers = sum(weighted, axis=1)
print answers
# Rejected masked_array solution is too expensive (and oddly inverts
# the results):
masked = numpy.ma.array([[1,2,3]] * 4, mask=values)