3

我正在尝试在 Python 中进行一些数据处理,并且我有一个嵌套循环来进行一些算术计算。内部循环执行了 20.000 次,因此以下代码需要很长时间:

for foo in foo_list:
    # get bar_list for foo
    for bar in bar_list:
        # do calculations w/ foo & bar

这个循环使用 Numpy 或 Scipy 会更快吗?

4

4 回答 4

2

使用 Numpy:

import numpy as np
foo = np.array(foo_list)[:,None]
bar = np.array(bar_list)[None,:]

然后

foo + bar

len(foo) * len(bar)或其他操作创建具有相应结果的数组。

例子:

>>> foo_list = [10, 20, 30]
>>> bar_list = [4, 5]
>>> foo = np.array(foo_list)[:,None]
>>> bar = np.array(bar_list)[None,:]
>>> 2 * foo + bar

array([[24, 25],
       [44, 45],
       [64, 65]])
于 2012-10-11T14:14:57.240 回答
0

取决于你的循环中实际发生的事情,是的。
numpy 允许使用数组和矩阵,这允许索引使您的代码执行更快,并且在某些情况下可以消除循环。

索引示例:

import magic_square as ms

a = ms.magic(5)

print a # a is an array
[[17 24  1  8 15]
 [23  5  7 14 16]
 [ 4  6 13 20 22]
 [10 12 19 21  3]
 [11 18 25  2  9]]

# Indexing example.  
b = a[a[:,1]>10]*10

print b
[[170, 240,  10,  80, 150],
 [100, 120, 190, 210,  30],
 [110, 180, 250,  20,  90]]

在分析一个或多个数组时,应该清楚索引如何显着提高您的速度。这是一个强大的工具...

于 2012-10-11T14:18:39.633 回答
0

如果这些是聚合统计信息,请考虑使用Python Pandas。例如,如果你想对所有不同的(foo, bar)对做某事,你可以按这些项目分组,然后应用向量化的 NumPy 操作:

import pandas, numpy as np
df = pandas.DataFrame(
                      {'foo':[1,2,3,3,5,5], 
                       'bar':['a', 'b', 'b', 'b', 'c', 'c'], 
                       'colA':[1,2,3,4,5,6], 
                       'colB':[7,8,9,10,11,12]})
print df.to_string()

# Computed average of 'colA' weighted by values in 'colB', for each unique
# group of (foo, bar).
weighted_avgs  = df.groupby(['foo', 'bar']).apply(lambda x: (1.0*x['colA']*x['colB']).sum()/x['colB'].sum())

print weighted_avgs.to_string()

这仅为数据对象打印以下内容:

  bar  colA  colB  foo
0   a     1     7    1
1   b     2     8    2
2   b     3     9    3
3   b     4    10    3
4   c     5    11    5
5   c     6    12    5

这是分组的汇总输出

foo  bar
1    a      1.000000
2    b      2.000000
3    b      3.526316
5    c      5.521739
于 2012-10-11T14:24:23.113 回答
0

我使用 numpy 进行图像处理。在我使用 for(x in row) { for y in column} 之前(反之亦然,你明白了)。

这对于小图像来说很好,但会很高兴地消耗 ram。相反,我切换到 numpy.array。快多了。

于 2012-10-11T14:16:16.913 回答