5

我有一段 Python 代码,我在其中使用joblibmultiprocessing使部分代码并行运行。我在桌面上运行它没有问题,我可以使用任务管理器查看它使用所有四个内核并并行运行代码。

我最近了解到我可以访问具有 100+ 20 个核心节点的 HPC 集群。集群使用SLURM作为工作负载管理器。

第一个问题是:是否可以在集群上运行并行化的 Python 代码?

如果有可能,

  1. 我是否需要更改 Python 代码才能在集群上运行,以及

  2. 需要在作业提交文件中放入哪些#SBATCH 指令来告诉它代码的并行化部分应该在四个内核(或者是四个节点)上运行?

我有权访问的集群具有以下属性:

PARTITION      CPUS(A/I/O/T)       NODES(A/I)  TIMELIMIT      MEMORY  CPUS  SOCKETS CORES 
standard       324/556/16/896      34/60       5-00:20:00     46000+  8+    2       4+
4

1 回答 1

5

通常, MPI被认为是高性能计算的事实标准。Python 有一些 MPI 绑定:

也有一堆框架 -列表

您的代码至少需要进行最少的更改,但不应过多。

当您移植到 MPI 时,您可以为每个内核运行一个进程,而无需使用multiprocessing

因此,例如,如果您有 100 个节点,每个节点有 24 个内核,那么您将运行 2400 个 Python 进程。

于 2015-01-21T16:45:37.527 回答