我需要对非常大的数组(数百万个条目)执行操作,这些数组的累积大小接近可用内存。我知道当使用 numpy like 进行简单操作时a=a*3+b-c**2
,会创建几个临时数组,从而占用更多内存。
由于我计划在内存占用的限制下工作,恐怕这种简单的方法行不通。所以我想以正确的方法开始我的发展。
我知道像numba或pythran这样的包可以帮助提高操作数组时的性能,但我不清楚它们是否可以自动处理就地操作,避免临时对象......?
作为一个简单的例子,这是我必须在大型数组上使用的一个函数:
def find_bins(a, indices):
global offset, width, nstep
i = (a-offset) *nstep/ width
i = np.where(i<0,0,i)
i = np.where(i>=nstep,nstep, i)
indices[:] = i.astype(int)
所以混合算术运算和调用 numpy 函数的东西。
使用 numba 或 pythran(或其他东西?)编写这样的函数有多容易?每种情况的优缺点是什么?
感谢您的任何提示!
ps:我知道 numexpr,但我不确定它是否方便或很好地适应比单个算术表达式更复杂的函数?