2

我正在尝试在 Python 中完成以下逻辑操作,但遇到了内存和时间问题。因为,我对 python 很陌生,所以关于如何以及在哪里优化问题的指导将不胜感激!(我明白下面的问题有些抽象)

import networkx as nx 
    dic_score = {}
    G = nx.watts_strogatz_graph(10000,10,.01) # Generate 2 graphs with 10,000 nodes using Networkx
    H = nx.watts_strogatz_graph(10000,10,.01)
    for Gnodes in G.nodes()
        for Hnodes in H.nodes ()  # i.e. For all the pair of nodes in both the graphs
           score = SomeOperation on (Gnodes,Hnodes)  # Calculate a metric 
           dic_score.setdefault(Gnodes,[]).append([Hnodes, score, -1 ]) # Store the metric in the form a Key: value, where value become a list of lists, pair in a dictionary

然后根据这里提到的标准sorting_criterion对生成的字典中的列表进行排序

我的问题/问题是:

1)有没有比使用for循环进行迭代更好的方法来解决这个问题?

2)解决上述问题的最优化(最快)方法应该是什么?我应该考虑使用字典以外的其他数据结构吗?或者可能是文件操作?

3)由于我需要对这个字典中的列表进行排序,它有 10,000 个键,每个键对应于 10,000 个值的列表,内存需求很快变得巨大,我用完了它。

3) 有没有办法将排序过程集成到字典本身的计算中,即避免单独循环排序?

任何输入将不胜感激!谢谢 !

4

3 回答 3

5

1)您可以使用itertools模块中的功能之一。让我提一下,您可以阅读手册或致电:

from itertools import product
help(product)

这是一个例子:

for item1, item2 in product(list1, list2):
    pass

2)如果结果太大而无法放入内存,请尝试将它们保存在某个地方。您可以将其输出到 CSV 文件中,例如:

with open('result.csv') as outfile:
   writer = csv.writer(outfile, dialect='excel')
   for ...
       writer.write(...)

这将释放你的记忆。

3)我认为最好在事后对结果数据进行排序(因为sort函数相当快)而不是使事情复杂化并即时对数据进行排序。

您可以改为使用NumPy数组/矩阵运算(求和、乘积,甚至将函数映射到每个矩阵行)。这些速度如此之快,以至于有时过滤数据的成本比计算所有内容的成本更高。

如果您的应用程序仍然很慢,请尝试对其进行分析,以准确查看哪些操作很慢或执行次数过多:

from cProfile import Profile
p = Profile()

p.runctx('my_function(args)', {'my_function': my_function, 'args': my_data}, {})
p.print_stats()

你会看到表格:

      2706 function calls (2004 primitive calls) in 4.504 CPU seconds

Ordered by: standard name

ncalls  tottime  percall  cumtime  percall filename:lineno(function)
     2    0.006    0.003    0.953    0.477 pobject.py:75(save_objects)
  43/3    0.533    0.012    0.749    0.250 pobject.py:99(evaluate)
...
于 2012-06-27T07:56:26.257 回答
4

使用返回列表的函数时,请检查返回迭代器的函数。

这将提高内存使用率。

在您的情况下,nx.nodes返回完整列表。请参阅:节点

使用nodes_iter,因为它返回一个迭代器。这应该确保您在 for 循环中的节点上迭代时没有内存中的完整节点列表。

参见:nodes_iter

一些改进:

import networkx as nx 
    dic_score = {}
    G = nx.watts_strogatz_graph(10000,10,.01) 
    H = nx.watts_strogatz_graph(10000,10,.01)
    for Gnodes in G.nodes_iter() ----------------> changed from G.nodes()
        for Hnodes in H.nodes_iter()  -----------> changed from H.nodes()
           score = SomeOperation on (Gnodes,Hnodes) 
           dic_score.setdefault(Gnodes,[]).append([Hnodes, score, -1 ])

您也可以使用另一个习惯用法,因为现在您有两个迭代器:使用itertools.products

product(A, B) returns the same as ((x,y) for x in A for y in B). 
于 2012-06-27T07:56:03.500 回答
1

其他人也提到过itertools.product。很好,但是在您的情况下,还有另一种可能性:内部循环的生成器表达式和sorted函数。(当然,代码未经测试。)

import networkx as nx
from operator import itemgetter 
dic_score = {}
G = nx.watts_strogatz_graph(10000,10,.01) # Generate 2 graphs with 10,000 nodes using Networkx
H = nx.watts_strogatz_graph(10000,10,.01)
for Gnodes in G.nodes():
    dic_score[Gnodes] = sorted([Hnodes, score(Gnodes, Hnodes), -1] for Hnodes in H.nodes(), key=operator.itemgetter(1)) # sort on score

内部循环被生成器表达式替换。它也是动态排序的(假设您想对每个内部列表进行排序score)。您可以轻松地将每个内部列表写入文件,而不是存储在字典中,这将有助于记忆。

于 2012-06-27T08:10:37.130 回答