c - 在集群上运行 openmp

Question

我必须在具有不同配置（例如不同数量的节点）的集群上运行 openmp 程序。但我面临的问题是，每当我尝试使用 2 个节点运行程序时，同一段程序运行 2 次而不是并行运行。

我的程序 -

gettimeofday(&t0, NULL);
for (k=0; k<size; k++) {
    #pragma omp parallel for shared(A)
    for (i=k+1; i<size; i++) {
        //parallel code
    }
    #pragma omp barrier
    for (i=k+1; i<size; i++) {
        #pragma omp parallel for
        //parallel code
    }
}

gettimeofday(&t1, NULL);
printf("Did %u calls in %.2g seconds\n", i, t1.tv_sec - t0.tv_sec + 1E-6 * (t1.tv_usec - t0.tv_usec));

这是一个LU分解程序。当我在 2 个节点上运行它时，我得到类似这样的输出 -
在 5.2 秒内进行
了 1000 次调用在 5.3 秒内进行了 1000 次调用
在 41 秒内进行
了 2000 次调用在 41 秒内进行了 2000 次调用

如您所见，程序为每个值（1000,2000,3000 ...）运行两次，而不是并行运行。这是我的家庭作业计划，但我被困在这一点上。

我正在使用 SLURM 脚本在我的大学计算集群上运行这个程序。这是教授提供的标准脚本。

#!/bin/sh
##SBATCH --partition=general-compute
#SBATCH --time=60:00:00
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=2
##SBATCH --mem=24000
# Memory per node specification is in MB. It is optional. 
# The default limit is 3GB per core.
#SBATCH --job-name="lu_openmpnew2nodes"
#SBATCH --output=luopenmpnew1node2task.out
#SBATCH --mail-user=***@***.edu
#SBATCH --mail-type=ALL
##SBATCH --requeue
#Specifies that the job will be requeued after a node failure.
#The default is that the job will not be requeued.


echo "SLURM_JOBID="$SLURM_JOBID
echo "SLURM_JOB_NODELIST"=$SLURM_JOB_NODELIST
echo "SLURM_NNODES"=$SLURM_NNODES
echo "SLURMTMPDIR="$SLURMTMPDIR

cd $SLURM_SUBMIT_DIR
echo "working directory = "$SLURM_SUBMIT_DIR

module list
ulimit -s unlimited
#

echo "Launch luopenmp with srun"
export I_MPI_PMI_LIBRARY=/usr/lib64/libpmi.so
for i in {1000..20000..1000}
do
srun ./openmpNew "$i"
done

#
echo "All Done!"

score 6 · Accepted Answer

请注意，您在这里混淆了MPI和OpenMP。

OpenMP 与线程一起工作，即在不通过分布式内存系统的多个节点进行通信的共享内存上（存在一些技术可以做到这一点，但它们的性能不够好）。

您正在做的是在每个节点上启动相同的程序。如果你在哪里使用MPI，这很好。但是在您的情况下，您使用默认数量的线程启动两个进程。这两个过程是相互独立的。

我建议进一步研究共享内存并行化编程（如 OpenMP）和分布式内存并行化（如 MPI）的主题。那里有大量教程，我会推荐Hager 和 Wellein 所著的“面向科学家和工程师的高性能计算简介”一书。

要尝试您的程序，请从一个节点开始，并指定OMP_NUM_THREADS如下：

OMP_NUM_THREADS=1 ./openmpNew "$i"
OMP_NUM_THREADS=2 ./openmpNew "$i"
...

这是 SLURM 的示例脚本：link。

c - 在集群上运行 openmp

1 回答 1

Related

Reference