7

我有一些board像这样的numpy数组:

array([[0, 0, 0, 1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 1, 0, 1],
       [0, 0, 0, 0, 0, 0, 0, 1],
       [0, 1, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 1, 0, 0]])

我正在使用以下代码来查找电路板从 -7 到 8 的每个第 n 条对角线上的元素总和(以及它的镜像版本)。

n = 8
rate = [b.diagonal(i).sum()
        for b in (board, board[::-1])
        for i in range(-n+1, n)]

经过一些分析后,此操作大约需要整体运行时间的 2/3,这似乎是因为 2 个因素:

  • .diagonal方法构建一个新数组而不是视图(看起来 numpy 1.7 将有一个新.diag方法来解决这个问题)
  • 迭代是在列表理解中的 python 中完成的

那么,有什么方法可以更快地找到这些总和(可能在 numpy 的 C 层中)?


经过更多的测试,我可以通过缓存这个操作来减少 7.5 倍的总时间......也许我正在寻找错误的瓶颈?


还有一件事:

刚刚找到了.trace替换diagonal(i).sum()东西的方法……性能并没有太大的提升(大约2%到4%)。

所以问题应该是理解。有任何想法吗?

4

2 回答 2

7

有一个可能的解决方案使用stride_tricks. 这部分基于此问题的答案中可用的大量信息,但我认为,问题只是不同而已,不能算作重复。这是应用于方阵的基本思想——参见下面的实现更通用解决方案的函数。

>>> cols = 8
>>> a = numpy.arange(cols * cols).reshape((cols, cols))
>>> fill = numpy.zeros((cols - 1) * cols, dtype='i8').reshape((cols - 1, cols))
>>> stacked = numpy.vstack((a, fill, a))
>>> major_stride, minor_stride = stacked.strides
>>> strides = major_stride, minor_stride * (cols + 1)
>>> shape = (cols * 2 - 1, cols)
>>> numpy.lib.stride_tricks.as_strided(stacked, shape, strides)
array([[ 0,  9, 18, 27, 36, 45, 54, 63],
       [ 8, 17, 26, 35, 44, 53, 62,  0],
       [16, 25, 34, 43, 52, 61,  0,  0],
       [24, 33, 42, 51, 60,  0,  0,  0],
       [32, 41, 50, 59,  0,  0,  0,  0],
       [40, 49, 58,  0,  0,  0,  0,  0],
       [48, 57,  0,  0,  0,  0,  0,  0],
       [56,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0,  0,  7],
       [ 0,  0,  0,  0,  0,  0,  6, 15],
       [ 0,  0,  0,  0,  0,  5, 14, 23],
       [ 0,  0,  0,  0,  4, 13, 22, 31],
       [ 0,  0,  0,  3, 12, 21, 30, 39],
       [ 0,  0,  2, 11, 20, 29, 38, 47],
       [ 0,  1, 10, 19, 28, 37, 46, 55]])
>>> diags = numpy.lib.stride_tricks.as_strided(stacked, shape, strides)
>>> diags.sum(axis=1)
array([252, 245, 231, 210, 182, 147, 105,  56,   7,  21,  42,  70, 105,
       147, 196])

当然,我不知道这实际上会有多快。但我敢打赌,它会比 Python 列表理解更快。

为方便起见,这里有一个完全通用的diagonals函数。它假设您要沿最长轴移动对角线:

def diagonals(a):
    rows, cols = a.shape
    if cols > rows:
        a = a.T
        rows, cols = a.shape
    fill = numpy.zeros(((cols - 1), cols), dtype=a.dtype)
    stacked = numpy.vstack((a, fill, a))
    major_stride, minor_stride = stacked.strides
    strides = major_stride, minor_stride * (cols + 1)
    shape = (rows + cols - 1, cols)
    return numpy.lib.stride_tricks.as_strided(stacked, shape, strides)
于 2012-05-29T23:31:05.513 回答
2

正如我在评论中发布的那样,我不会进入 C 代码。

尝试使用PyPy。实际上它的 numpy 支持非常好(但是它不直接支持 array.diagonal) - 我没有检查是否有其他的 buidin 方法。紧张,我尝试了以下代码:

try:
    import numpypy  # required by PyPy
except ImportError:
    pass
import numpy

board = numpy.array([[0, 0, 0, 1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 1, 0, 1],
       [0, 0, 0, 0, 0, 0, 0, 1],
       [0, 1, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 1, 0, 0]])

n=len(board)
def diag_sum(i, b):
    s = 0
    if i>=0:
        row = 0
        end = n
    else:
        row = -i
        end = n+i
        i = 0
    while i<end:
        s += b[row, i]
        i+=1
        row+=1
    return s


import time
t=time.time()
for i in xrange(50000):
    # rate = [b.diagonal(i).sum()
    #         for b in (board, board[::-1])
    #         for i in range(-n+1, n)]

    rate = [diag_sum(i,b)
            for b in (board, board[::-1])
            for i in range(-n+1, n)]

print time.time() - t

结果是:

  • 0.64s PyPy 与diag_sum
  • 6.01s CPython 版本与diag_sum
  • 5.60s CPython 版本与b.diagonal
于 2012-05-29T10:30:06.460 回答