python-multiprocessing - 在 Python 中使用多处理进行 LCA 计算时，为什么工作人员会死于内存问题？

Question

我在 Python 中使用多处理来计算 ecoinvent v3.2 数据库中所有功能单元的 LCA 结果以进行多次迭代时遇到问题。

代码如下：

for worker_id in range(CPUS):

    # Create child processes that can work apart from parent process
    child = mp.Process(target=worker_process, args=(projects.current, output_dir, worker_id, activities, ITERATIONS, status))
    workers.append(child)
    child.start()
print(workers)

while any(i.is_alive() for i in workers):
    time.sleep(0.1)
    while not status.empty():
        # Flush queue of progress reports
        worker, completed = status.get()
        progress[worker] = completed
    progbar.update(sum(progress.values()))
progbar.finish()

定义worker_process函数如下：

def worker_process(project, output_dir, worker_id, activities, iterations, progress_queue):

# Project is string; project name in Brightway2
# output_dir is a string
# worker_id is an integer
# activities is a list of dictionaries
# iterations is an integer
# progress_queue is a Queue where we can report progress to parent process

projects.set_current(project, writable=False)

lca = DirectSolvingPVLCA(activities[0])
lca.load_data()
samples = np.empty((iterations, lca.params.shape[0]))
supply_arrays = np.empty((iterations, len(activities), len(lca.product_dict)))

for index in range(iterations):

    lca.rebuild_all()
    samples[index, :] = lca.sample
    lca.decompose_technosphere()  
    for act_index, fu in enumerate(activities):
        lca.build_demand_array(fu)
        supply_arrays[index, act_index, :] = lca.solve_linear_system()
    progress_queue.put((worker_id, index))

观察到的问题是：

对于两个以上的工人，除了两个之外，所有工人都立即死于 a MemoryError（见下文）。
对于两个幸存的工人来说，代码似乎适用于 10、100 或 5000 个功能单元，但当我们要求所有 FU 时，它会崩溃并运行到相同的MemoryError.

MemoryError每个X进程都会发生这种情况：

    Process Process-X: 
    Traceback (most recent call last): 
      File "C:\bw2-python\envs\bw2\lib\multiprocessing\process.py", line 254, in_bootstrap 
        self.run()    
      File "C:\bw2-python\envs\bw2\lib\multiprocessing\process.py", line 93, in run   
        self._target(*self._args, **self._kwargs)   
      File "C:\test\Do all the calculations.py", line 49, in worker_process 
        supply_arrays = np.empty((iterations, len(activities), len(lca.product_dict))) 
    MemoryError

我的问题是：

为什么会出现这种情况？
如何解决这个问题？

score 1 · Accepted Answer

你的内存用完了，因为你使用了太多的内存。

当您使用以下方法分配新数组时：

np.empty((iterations, len(activities), len(lca.product_dict)))

并且每个长度为 10.000 activities，lca.product_dict您使用 10.000 * 10.000 * 8（假设您的默认浮点数为 64 位或 8 个字节）= 每次迭代和每个工作进程 800 MB 内存。

一个简单的解决方案是在具有大量 RAM 的服务器上工作。

在内存中创建这些大型数组的替代方法包括：

使用PyTables或h5py
使用Numpy 的memmap.

无论哪种情况，您都需要仔细测试为您的特定工作流程和操作系统写入和读取数据的最有效方法。

python-multiprocessing - 在 Python 中使用多处理进行 LCA 计算时，为什么工作人员会死于内存问题？

1 回答 1

Related

Reference