4

我有一个运行循环的 python 脚本。在这个循环中,函数DoDebugInfo被调用,每次循环迭代一次。这个函数基本上是使用matplotlib将一些图片打印到硬盘,导出一个KML文件并做一些其他的计算,什么都不返回

我遇到的问题是python,对于每次运行,该函数都会消耗DoDebugInfo越来越多的 RAM。我猜一些变量正在增加每个循环的大小。

我在通话前后添加了以下几行:

print '=== before: ' + str(resource.getrusage(resource.RUSAGE_SELF).ru_maxrss / 1000)
DoDebugInfo(inputs)
print '=== after: ' + str(resource.getrusage(resource.RUSAGE_SELF).ru_maxrss / 1000)

输出是:

=== before: 71598.08
=== after: 170237.952
=== before: 170237.952
=== after: 255696.896
=== before: 255696.896
=== after: 341409.792

如您所见,在调用之前程序有内存占用,在调用之后它会增加,但在下一次调用之前保持稳定。

为什么是这样?既然DoDebugInfo(inputs)是一个什么都不返回的函数,那么一些变量怎么会留在内存中呢?是否需要在函数结束时清除所有变量?

编辑:DoDebugInfo导入此功能:

def plot_line(x,y,kind,lab_x,lab_y,filename):
    fig = plt.figure(figsize=(11,6),dpi=300)
    ax = fig.add_subplot(111)
    ax.grid(True,which='both')
    #print 'plotting'
    if type(x[0]) is datetime.datetime:
        #print 'datetime detected'
        ax.plot_date(matplotlib.dates.date2num(x),y,kind)
        ax.fmt_xdata = DateFormatter('%H')
        ax.autoscale_view()
        fig.autofmt_xdate()
    else:   
        #print 'no datetime'
        ax.plot(x,y,kind)
    xlabel = ax.set_xlabel(lab_x)
    ax.set_ylabel(lab_y)
    fig.savefig(filename,bbox_extra_artists=[xlabel], bbox_inches='tight')

def plot_hist(x,Nbins,lab_x,lab_y,filename):
    fig = plt.figure(figsize=(11,6),dpi=300)
    ax = fig.add_subplot(111)
    ax.grid(True,which='both')
    ax.hist(x,Nbins)
    xlabel = ax.set_xlabel(lab_x)
    ax.set_ylabel(lab_y)
    fig.savefig(filename,bbox_extra_artists=[xlabel], bbox_inches='tight')

并使用以下方式将 10 个图形绘制到磁盘上:

plot_line(index,alt,'-','Drive Index','Altitude in m',output_dir + 'name.png')

如果我注释使用plot_line问题的行不会发生,那么泄漏应该在这行代码上。

谢谢

4

2 回答 2

6

问题在于创建了如此多的数字并且从未关闭过。不知何故,蟒蛇让他们都活着。

我添加了行

plt.close()

到我的每个绘图功能plot_lineplot_hist问题就消失了。

于 2013-04-18T13:12:07.613 回答
0

大小会无限增长吗?即使不再使用,也很少有程序(或库)将堆返回到它们分配的系统,CPython(2.7.3)也不例外。通常的罪魁祸首是malloc它会按需增加进程内存,将空间返回到它的空闲列表free,但从不取消分配它从系统请求的空间。此示例代码故意占用内存并表明进程使用是有界且有限的:

import resource

def maxrss(start, end, step=1):
    """allocate ever larger strings and show the process rss"""
    for exp in range(start, end, step):
        s = '0' * (2 ** exp)
        print '%5i: %sk' % (exp, 
            resource.getrusage(resource.RUSAGE_SELF).ru_maxrss / 1000)
    # s goes out of scope here and is freed by Python but not returned 
    # to the system

try:
    maxrss(1, 40, 5)
except MemoryError:
    print 'MemoryError'

maxrss(1, 30, 5)

输出(在我的机器上)在哪里,部分是:

26: 72k
31: 2167k
MemoryError
 1: 2167k
 6: 2167k
 ...
26: 2170k

这表明解释器未能从系统中获得 2**36 字节的堆,但仍有“手头”的内存来填充以后的请求。正如脚本的最后一行演示的那样,Python 可以使用内存,即使它当前没有使用它。

于 2013-04-18T12:34:41.877 回答