python - scipy.weave.inline 如何在集群上启用 MPI 的应用程序中使用？

Question

如果 scipy.weave.inline 在一个支持 MPI 的大规模并行应用程序中调用，该应用程序运行在一个集群上，该应用程序的主目录对所有节点都是通用的，那么每个实例都会访问相同的编译代码目录：$HOME/.pythonxx_compiled。由于显而易见的原因，这很糟糕，并导致许多错误消息。如何规避这个问题？

score 1 · Accepted Answer

根据scipy docs，您可以将编译后的数据存储在 NFS 共享之外的目录中（例如 /tmp 或 /scratch 或任何可用于您的系统的目录）。这样你就不必担心你的冲突了。您只需要将 PYTHONCOMPILED 环境变量设置为其他值。

score 1 · Accepted Answer

我之前对这个问题的想法：

要么 scipy.weave.catalog 必须使用适当的锁定机制来增强对目录的序列化访问，要么每个实例都必须使用自己的目录。

我选择了后者。该scipy.weave.inline函数使用绑定到模块的模块级名称function_catalog的目录scipy.weave.inline。这可以通过查看此模块的代码 ( https://github.com/scipy/scipy/tree/v0.12.0/scipy/weave ) 来发现。

现在最简单的解决方案是在程序开始时将此名称修改为其他名称：

from mpi4py import MPI

import numpy as np

import scipy.weave.inline_tools
import scipy.weave.catalog

import os
import os.path

comm = MPI.COMM_WORLD
rank = comm.Get_rank()
size = comm.Get_size()

catalog_dir = os.path.join(some_path,  'rank'+str(rank))
try:
    os.makedirs(catalog_dir)
except OSError:
    pass

#monkeypatching the catalog
scipy.weave.inline_tools.function_catalog = scipy.weave.catalog.catalog(catalog_dir)

现在inline可以顺利运行：每个实例在公共 NFS 目录中都有自己的目录。当然，如果两个不同的并行任务同时运行，则此命名方案会中断，但如果目录位于 /tmp 中，也会出现这种情况。

编辑：如上面的评论中所述，如果多个独立作业并行运行，此过程仍然存在问题。这可以通过向路径名添加随机 uuid 来解决：

import uuid

u = None
if rank == 0:
    u = str(uuid.uuid4())

u = comm.scatter([u]*size, root=0)

catalog_dir = os.path.join('/tmp/<username>/pythoncompiled',  u+'-'+str(rank))
os.makedirs(catalog_dir)

#monkeypatching the catalog
scipy.weave.inline_tools.function_catalog = scipy.weave.catalog.catalog(catalog_dir)

当然，在计算之后删除这些文件会很好：

shutil.rmtree(catalog_dir)

编辑：还有一些额外的问题。存放cpp和o文件的中间目录，由于不同实例同时访问，也遇到了一些麻烦，所以只好将上面的方法扩展到这个目录：

basetmp = some_path
catalog_dir = os.path.join(basetmp, 'pythoncompiled',  u+'-'+str(rank))
intermediate_dir = os.path.join(basetmp, 'pythonintermediate',  u+'-'+str(rank))

os.makedirs(catalog_dir, mode=0o700)
os.makedirs(intermediate_dir, mode=0o700)

#monkeypatching the catalog and intermediate_dir
scipy.weave.inline_tools.function_catalog = scipy.weave.catalog.catalog(catalog_dir)
scipy.weave.catalog.intermediate_dir = lambda: intermediate_dir

#... calculations here ...

shutil.rmtree(catalog_dir)
shutil.rmtree(intermediate_dir)

score 0 · Accepted Answer

一种快速的解决方法是在每个节点上使用本地目录（例如 Wesley 所说的 /tmp），但如果有能力，每个节点使用一个 MPI 任务。

python - scipy.weave.inline 如何在集群上启用 MPI 的应用程序中使用？

3 回答 3

Related

Reference