0

所以我同时运行以下这些 pbs 文件:

qsub /mnt/文件夹/prueba1_1 qsub /mnt/文件夹/prueba01

这里是文件

prueba1_1

#!/bin/bash
#PBS -N pruebaF
#PBS -V
#PBS -l nodes=1:ppn=1
#PBS -q batch
#PBS -j eo
cd /mnt/folder
mpiexec -f machinefile  ./cpi2>>salida1_1.o

prueba01

#!/bin/bash
#PBS -N pruebaF
#PBS -V
#PBS -l nodes=1:ppn=1
#PBS -q batch
#PBS -j eo
cd /mnt/folder
mpiexec -f machinefile  ./cpi2>>salida01.o

文件 machinefile 包含 2 个节点 slave02 和 slave03,每个节点都有 1 个处理器

尽管我指定每个 pbs 文件每个作业应仅使用 1 个节点和 1 个处理器(#PBS -l nodes=1:ppn=1),但输出文件似乎表明每个作业同时使用两个节点。我想知道为什么这些 pbsfiles 应该只使用一个节点和 1 个处理器,对我来说应该是 prueba1_1 应该使用 slave02 和 1 个处理器,而 prueba01 也应该使用 slave02,但应该使用另一个处理器。

输出文件在这里

salida1_1.o

Process 0 of 2 is on slave02
Process 1 of 2 is on slave03
pi is approximately 3.1415926535900915, Error is 0.0000000000002984
wall clock time = 14.937282

萨利达01.o

Process 0 of 2 is on slave02
Process 1 of 2 is on slave03
pi is approximately 3.1415926535900915, Error is 0.0000000000002984
wall clock time = 14.741892
4

1 回答 1

1

我会将 machinefile 更改为 $PBS_NODEFILE。当 Torque/PBS 将节点分配给您的作业时,它会创建一个包含这些节点列表的文件,并在变量 PBS_NODEFILE 中设置该文件的路径。我猜 machinefile 是为测试而创建的,因为它不是由 Torque 创建或更新的,这就是为什么你的工作总是以相同的方式运行。

于 2015-02-12T13:09:52.823 回答