我知道您提到 Pool.map 方法对您没有多大意义。该地图只是为其提供工作源的一种简单方法,并且可以调用以应用于每个项目。地图的func
可以是对给定参数进行实际工作的任何入口点。
如果这似乎不适合您,我在这里有一个关于使用生产者-消费者模式的非常详细的答案:https ://stackoverflow.com/a/11196615/496445
本质上,您创建了一个队列,并启动了 N 个工人。然后,您要么从主线程提供队列,要么创建一个提供队列的生产者进程。工作人员只是继续从队列中获取工作,并且发生的并发工作永远不会超过您启动的进程数。
您还可以选择对队列进行限制,以便在已经有太多未完成的工作时阻塞生产者,如果您还需要限制生产者消耗的速度和资源。
被调用的工作函数可以做任何你想做的事情。这可以是一些系统命令的包装器,或者它可以导入您的 python 库并运行主例程。那里有特定的进程管理系统,可让您设置配置以在有限的资源下运行任意可执行文件,但这只是执行此操作的基本 python 方法。
我的另一个答案的片段:
基本池:
from multiprocessing import Pool
def do_work(val):
# could instantiate some other library class,
# call out to the file system,
# or do something simple right here.
return "FOO: %s" % val
pool = Pool(4)
work = get_work_args()
results = pool.map(do_work, work)
使用流程管理器和生产者
from multiprocessing import Process, Manager
import time
import itertools
def do_work(in_queue, out_list):
while True:
item = in_queue.get()
# exit signal
if item == None:
return
# fake work
time.sleep(.5)
result = item
out_list.append(result)
if __name__ == "__main__":
num_workers = 4
manager = Manager()
results = manager.list()
work = manager.Queue(num_workers)
# start for workers
pool = []
for i in xrange(num_workers):
p = Process(target=do_work, args=(work, results))
p.start()
pool.append(p)
# produce data
# this could also be started in a producer process
# instead of blocking
iters = itertools.chain(get_work_args(), (None,)*num_workers)
for item in iters:
work.put(item)
for p in pool:
p.join()
print results