11

我正在寻找一种快速公式来对 2D numpy 数组进行数值分箱。通过分箱,我的意思是计算子矩阵平均值或累积值。例如。x = numpy.arange(16).reshape(4, 4) 将被分成 4 个 2x2 的子矩阵,并给出 numpy.array([[2.5,4.5],[10.5,12.5]]) 其中 2.5=numpy。平均([0,1,4,5])等...

如何以有效的方式执行这样的操作......我真的不知道如何执行这个......

非常感谢...

4

3 回答 3

19

您可以使用数组的更高维视图并沿额外维度取平均值:

In [12]: a = np.arange(36).reshape(6, 6)

In [13]: a
Out[13]: 
array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

In [14]: a_view = a.reshape(3, 2, 3, 2)

In [15]: a_view.mean(axis=3).mean(axis=1)
Out[15]: 
array([[  3.5,   5.5,   7.5],
       [ 15.5,  17.5,  19.5],
       [ 27.5,  29.5,  31.5]])

一般来说,如果你想要(a, b)数组的形状箱(rows, cols),你的重塑应该是.reshape(rows // a, a, cols // b, b). 另请注意,的顺序.mean很重要,例如a_view.mean(axis=1).mean(axis=3)会引发错误,因为a_view.mean(axis=1)只有三个维度,虽然a_view.mean(axis=1).mean(axis=2)可以正常工作,但更难理解发生了什么。

照原样,上面的代码仅在您可以在数组中容纳整数个 bin 时才有效,即 if adividesrowsbdivides cols。有一些方法可以处理其他情况,但是你必须定义你想要的行为。

于 2013-02-17T01:01:46.277 回答
1

请参阅有关 rebinning 的 SciPy Cookbook,其中提供了以下代码段:

def rebin(a, *args):
    '''rebin ndarray data into a smaller ndarray of the same rank whose dimensions
    are factors of the original dimensions. eg. An array with 6 columns and 4 rows
    can be reduced to have 6,3,2 or 1 columns and 4,2 or 1 rows.
    example usages:
    >>> a=rand(6,4); b=rebin(a,3,2)
    >>> a=rand(6); b=rebin(a,2)
    '''
    shape = a.shape
    lenShape = len(shape)
    factor = asarray(shape)/asarray(args)
    evList = ['a.reshape('] + \
             ['args[%d],factor[%d],'%(i,i) for i in range(lenShape)] + \
             [')'] + ['.sum(%d)'%(i+1) for i in range(lenShape)] + \
             ['/factor[%d]'%i for i in range(lenShape)]
    print ''.join(evList)
    return eval(''.join(evList))
于 2014-02-21T03:14:58.097 回答
0

我假设您只想知道如何通常构建一个性能良好并使用数组执行某些操作的函数,就像numpy.reshape在您的示例中一样。因此,如果性能真的很重要并且您已经在使用 numpy,那么您可以为此编写自己的 C 代码,就像 numpy 一样。例如,arange的实现完全在 C 中。几乎所有与性能有关的 numpy 都在 C 中实现。

但是,在这样做之前,您应该尝试在 python 中实现代码,看看性能是否足够好。尝试使 python 代码尽可能高效。如果它仍然不适合您的性能需求,请使用 C 方式。

您可以在docs中阅读相关内容。

于 2013-02-17T00:40:05.963 回答