4

假设我有两个数组形式

a = [0, 0, 1, 1, 2, 3, 3, 3, 4, 4, 5, 6]
b = [1, 2, 1, 2, 1, 4, 7, 9, 4, 8, 1, 1]

如您所见,上述数组在考虑时a作为b超级数组的列进行了排序。

现在,我想对这个数组进行搜索排序。例如,如果我搜索 (3, 7)(a = 3 和 b = 7),我应该得到 6。

每当 中存在重复值时a,搜索应继续使用 中的值b

是否有内置的 numpy 方法可以做到这一点?或者假设我的数组中有数百万个条目,那么有效的方法是什么。

我尝试使用 numpy.recarray,使用 and 创建一个 recarrayab尝试在其中搜索,但出现以下错误。

TypeError: expected a readable buffer object

任何帮助深表感谢。

4

6 回答 6

4

您可以使用searchsorted从左到右重复的:

left, right = np.searchsorted(a, 3, side='left'), np.searchsorted(a, 3, side='right')
index = left + np.searchsorted(b[left:right], 7)
于 2012-08-08T16:06:25.837 回答
4

您快到了。只是numpy.record(鉴于您收到的错误消息,这是我假设您使用的)并不是您真正想要的;只需创建一个单项记录数组:

>>> a_b = numpy.rec.fromarrays((a, b))
>>> a_b
rec.array([(0, 1), (0, 2), (1, 1), (1, 2), (2, 1), (3, 4), (3, 7), (3, 9),
       (4, 4), (4, 8), (5, 1), (6, 1)], 
      dtype=[('f0', '<i8'), ('f1', '<i8')])
>>> numpy.searchsorted(a_b, numpy.array((3, 7), dtype=a_b.dtype))
6

sort了解这一点并按词法对记录数组进行排序也可能很有用argsort,还有lexsort。使用示例lexsort

>>> random_idx = numpy.random.permutation(range(12))
>>> a = numpy.array(a)[random_idx]
>>> b = numpy.array(b)[random_idx]
>>> sorted_idx = numpy.lexsort((b, a))
>>> a[sorted_idx]
array([0, 0, 1, 1, 2, 3, 3, 3, 4, 4, 5, 6])
>>> b[sorted_idx]
array([1, 2, 1, 2, 1, 4, 7, 9, 4, 8, 1, 1])

排序记录数组:

>>> a_b = numpy.rec.fromarrays((a, b))
>>> a_b[a_b.argsort()]
rec.array([(0, 1), (0, 2), (1, 1), (1, 2), (2, 1), (3, 4), (3, 7), (3, 9),
       (4, 4), (4, 8), (5, 1), (6, 1)], 
      dtype=[('f0', '<i8'), ('f1', '<i8')])
>>> a_b.sort()
>>> a_b
rec.array([(0, 1), (0, 2), (1, 1), (1, 2), (2, 1), (3, 4), (3, 7), (3, 9),
       (4, 4), (4, 8), (5, 1), (6, 1)], 
      dtype=[('f0', '<i8'), ('f1', '<i8')])
于 2012-08-08T16:28:42.530 回答
1

这对我有用:

>>> a = [0, 0, 1, 1, 2, 3, 3, 3, 4, 4, 5, 6]
>>> b = [1, 2, 1, 2, 1, 4, 7, 9, 4, 8, 1, 1]
>>> Z = numpy.array(zip(a, b), dtype=[('a','int'), ('b','int')])
>>> Z.searchsorted(numpy.asarray((3,7), dtype=Z.dtype))
6

我认为诀窍可能是确保 searchsorted 的参数与数组具有相同的 dtype。当我尝试时,Z.searchsorted((3, 7))我得到一个段错误。

于 2012-08-08T17:29:52.303 回答
0

n 数组扩展:

import numpy as np

def searchsorted_multi(*args):
    v = args[-1]
    if len(v) != len(args[:-1]):
        raise ValueError
    l, r = 0, len(args[0])
    ind = 0
    for vi, ai in zip(v, args[:-1]):
        l, r = [np.searchsorted(ai[l:r], vi, side) for side in ('left', 'right')]
        ind += l
    return ind

if __name__ == "__main__":
    a = [0, 0, 1, 1, 2, 3, 3, 3, 4, 4, 5, 6]
    b = [1, 2, 1, 2, 1, 4, 7, 9, 4, 8, 1, 1]
    c = [1, 2, 1, 2, 1, 4, 7, 9, 4, 8, 1, 2]

    assert(searchsorted_multi(a, b, (3, 7)) == 6)
    assert(searchsorted_multi(a, b, (3, 0)) == 5)
    assert(searchsorted_multi(a, b, c, (6, 1, 2)) == 12)
于 2012-08-08T16:10:31.003 回答
0

这是一种有趣的方法(尽管它不是最有效的方法,因为我相信它是 O(n) 而不是 O(log(n)),因为 ecatmur 的答案是;但是,它更紧凑):

np.searchsorted(a + 1j*b, a_val + 1j*b_val)

例子:

>>> a = np.array([0, 0, 1, 1, 2, 3, 3, 3, 4, 4, 5, 6])
>>> b = np.array([1, 2, 1, 2, 1, 4, 7, 9, 4, 8, 1, 1])
>>> np.searchsorted(a + 1j*b, 4 + 1j*8)
9
于 2012-08-08T16:27:56.197 回答
0

或者没有 numpy:

>>> import bisect
>>> a = [0, 0, 1, 1, 2, 3, 3, 3, 4, 4, 5, 6]
>>> b = [1, 2, 1, 2, 1, 4, 7, 9, 4, 8, 1, 1]
>>> bisect.bisect_left(zip(a,b), (3,7))
6
于 2012-08-08T16:42:52.760 回答