3

当 queue.put() 的速度快于 queue.get() 的速度时,我发现 P1 进程将使用大内存(因为 P1 不断地从大文本文件中放置行)。甚至 P2 随后也完成了从队列中取线。P1 使用的内存仍未释放。如何解决这个问题?下面是示例和测试代码。

谢谢!

import time
from multiprocessing import Process, Queue

def addline(q):
   f = file('a big text file','r')
   line = True
   while line:
      line = f.readline()
      q.put(line, False)
   f.close()
   print "P1:finished"
   while 1:
      time.sleep(2)

def getline(q):
   f = file('/tmp/bak','w') 
   line = True
   while line:
      line=q.get()
      f.write(line)
      time.sleep(0.01)
   f.close()
   print "p2:finished"



if __name__ == "__main__":
   q = Queue()
   p1 = Process(name="addline", target=addline, args=(q,))
   p2 = Process(name="getline", target=getline, args=(q,))
   p1.start()
   p2.start()

编辑: 我尝试读取一个文本文件(44MB)并观察/proc/pid/smaps。我发现尚未释放的内存在堆中变成了Private_Dirty。

00fb3000-04643000 rw-p 00000000 00:00 0                                  [heap]
Size:              55872 kB
Rss:               55844 kB
Pss:               55163 kB
Shared_Clean:          0 kB
Shared_Dirty:       1024 kB
Private_Clean:         0 kB
Private_Dirty:     54820 kB
Referenced:        54972 kB
Swap:                  0 kB
KernelPageSize:        4 kB
MMUPageSize:           4 kB

 

4

1 回答 1

1

一旦对象不再被引用,Python 的垃圾收集器就会立即删除它。只要写入速率可以跟上存储硬件的读取速率,就必须可以在不增加内存且内存占用量小的情况下,从两个独立的线程/进程同时读取文件内容并同时写入文件内容。我相信当您使用更适合您的用例的 Python 语言结构时,您的问题就会消失。我会尝试对此发表评论。

要逐行读取文件,您应该使用以下概念:

with open('filepath') as f:
    for line in f:
        do_something_with(line)

您不必显式地显示.close()该文件。这同样适用于写入文件。在此处阅读该with声明:http: //effbot.org/zone/python-with-statement.htm

从我的角度来看,对于您提出的用例,由于“类流”应用程序,amultiprocessing.Pipe而不是 amultiprocessing.Queue会更合适。将原始文件内容表示为队列中的项目似乎很奇怪。os.pipe此外,如果您使用线程而不是独立的子进程(那么您应该使用线程间通信)** ,您可以摆脱大量的通信开销。在任何情况下,您都应该join()在启动它们之后创建线程和子进程。

** 对于您的用例(复制文件),全局解释器锁 (GIL) 不会成为性能问题。

于 2012-05-21T10:47:38.290 回答