python - 非常大的numpy数组的效率

Question

我正在处理一些非常大的数组。我正在处理的一个问题当然是内存不足，但即使在此之前我的代码运行缓慢，所以即使我有无限的内存，它仍然需要太长时间。我将给出一些代码来展示我正在尝试做的事情：

#samplez is a 3 million element 1-D array
#zfit is a 10,000 x 500 2-D array

b = np.arange((len(zfit))

for x in samplez:
    a = x-zfit
    mask = np.ma.masked_array(a)
    mask[a <= 0] = np.ma.masked
    index = mask.argmin(axis=1)
    #  These past 4 lines give me an index array of the smallest positive number 
    #  in x - zift       

    d = zfit[b,index]
    e = zfit[b,index+1]
    f = (x-d)/(e-d)
    # f is the calculation I am after

    if x == samplez[0]:
       g = f
       index_stack = index
    else:
       g = np.vstack((g,f))
       index_stack = np.vstack((index_stack,index))

在进一步计算中，我需要使用 g 和 index_stack，每个都是 300 万 x 10,000 二维数组。这个循环的每次迭代几乎需要 1 秒，所以总共需要 300 万秒，这太长了。

我能做些什么让这个计算运行得更快吗？我试图思考如果没有这个 for 循环我该怎么办，但我能想象的唯一方法是制作 300 万份 zfit，这是不可行的。

有没有办法通过不将所有内容都保存在 RAM 中来处理这些数组？我是初学者，我搜索的所有内容要么无关紧要，要么我无法理解。提前致谢。

score 1 · Accepted Answer

很高兴知道最小的正数永远不会出现在行的末尾。

insamplez有 100 万个唯一值，但在中zfit，每行最多只能有 500 个唯一值。整个zfit可以有多达 5000 万个唯一值。算法可以大大加快，如果'寻找最小正数> each_element_in_samplez'计算的次数可以大大减少。进行所有 5e13 比较可能是一种矫枉过正，仔细规划将能够摆脱其中的很大一部分。这在很大程度上取决于您实际的基础数学。

在不知不觉中，还是有一些小事可以做的。1，没有那么多可能(e-d)，以至于可以从循环中取出。2，循环可以消除map。这两个小修复，在我的机器上，导致大约 22% 的加速。

def function_map(samplez, zfit):
    diff=zfit[:,:-1]-zfit[:,1:]
    def _fuc1(x):
        a = x-zfit
        mask = np.ma.masked_array(a)
        mask[a <= 0] = np.ma.masked
        index = mask.argmin(axis=1)
        d = zfit[:,index]
        f = (x-d)/diff[:,index] #constrain: smallest value never at the very end.
        return (index, f)
    result=map(_fuc1, samplez)
    return (np.array([item[1] for item in result]),
           np.array([item[0] for item in result]))

下一个：masked_array可以完全避免（这应该会带来显着的改善）。samplez也需要排序。

>>> x1=arange(50)
>>> x2=random.random(size=(20, 10))*120
>>> x2=sort(x2, axis=1) #just to make sure the last elements of each col > largest val in x1
>>> x3=x2*1
>>> f1=lambda: function_map2(x1,x3)
>>> f0=lambda: function_map(x1, x2)
>>> def function_map2(samplez, zfit):
    _diff=diff(zfit, axis=1)
    _zfit=zfit*1
    def _fuc1(x):
        _zfit[_zfit<x]=(+inf)
        index = nanargmin(zfit, axis=1)
        d = zfit[:,index]
        f = (x-d)/_diff[:,index] #constrain: smallest value never at the very end.
        return (index, f)
    result=map(_fuc1, samplez)
    return (np.array([item[1] for item in result]),
           np.array([item[0] for item in result]))

>>> import timeit
>>> t1=timeit.Timer('f1()', 'from __main__ import f1')
>>> t0=timeit.Timer('f0()', 'from __main__ import f0')
>>> t0.timeit(5)
0.09083795547485352
>>> t1.timeit(5)
0.05301499366760254
>>> t0.timeit(50)
0.8838210105895996
>>> t1.timeit(50)
0.5063929557800293
>>> t0.timeit(500)
8.900799036026001
>>> t1.timeit(500)
4.614129018783569

所以，这是另一个 50% 的加速。

masked_array可以避免，这样可以节省一些 RAM。想不出任何其他方法来减少 RAM 的使用。可能需要samplez部分处理。而且，取决于数据和所需的精度，如果您可以使用float16或float32代替float64可以节省大量 RAM 的默认值。

python - 非常大的numpy数组的效率

1 回答 1

Related

Reference