9

我有一个问题,我需要启动相同的脚本但输入参数不同。

假设我有一个脚本myscript.py -p <par_Val> -i <num_trial>,我需要为每个. Npar_valuesx0x1par_values

M 的每次试验都几乎达到了我正在处理的集群的时间限制(而且我没有特权来改变它)。所以在实践中我需要运行NxM独立的工作。

因为每个批处理作业都具有相同的节点/cpu 配置,并调用相同的 python 脚本,除了更改输入参数,原则上,在伪语言中,我应该有一个sbatch脚本应该执行以下操作:

#!/bin/bash
#SBATCH --job-name=cv_01
#SBATCH --output=cv_analysis_eis-%j.out
#SBATCH --error=cv_analysis_eis-%j.err
#SBATCH --partition=gpu2
#SBATCH --nodes=1
#SBATCH --cpus-per-task=4

for p1 in 0.05 0.075 0.1 0.25 0.5
do
    for i in {0..150..5}
    do
        python myscript.py -p p1 -v i
    done
done

脚本的每次调用本身就是一个批处理作业。查看sbatch doc,该-a --array选项似乎很有希望。但就我而言,我需要更改NxM我拥有的每个脚本的输入参数。我怎样才能做到这一点?我不想编写NxM批处理脚本,然后按照本文txt的建议将它们列在文件中。这里提出的解决方案似乎也不理想,因为这是工作数组的情况。此外,我想确保所有脚本同时启动,并立即终止上述脚本的调用,以免与时间限制冲突,我的整个工作将被系统终止并仍然不完整(然而,因为每个NxMNxM作业在此限制内,如果它们并行但独立运行,则不会发生)。

4

3 回答 3

11

最好的方法是使用作业数组。

一种选择是在提交作业脚本时传递参数 p1,这样您将只有一个脚本,但必须多次提交,每个 p1 值一次。

代码将是这样的(未经测试):

#!/bin/bash
#SBATCH --job-name=cv_01
#SBATCH --output=cv_analysis_eis-%j-%a.out
#SBATCH --error=cv_analysis_eis-%j-%a.err
#SBATCH --partition=gpu2
#SBATCH --nodes=1
#SBATCH --cpus-per-task=4
#SBATCH -a 0-150:5

python myscript.py -p $1 -v $SLURM_ARRAY_TASK_ID

你将提交它:

sbatch my_jobscript.sh 0.05
sbatch my_jobscript.sh 0.075
...

另一种方法是在 bash 数组中定义所有 p1 参数并提交 NxM 作业(未经测试)

#!/bin/bash
#SBATCH --job-name=cv_01
#SBATCH --output=cv_analysis_eis-%j-%a.out
#SBATCH --error=cv_analysis_eis-%j-%a.err
#SBATCH --partition=gpu2
#SBATCH --nodes=1
#SBATCH --cpus-per-task=4
#Make the array NxM
#SBATCH -a 0-150

PARRAY=(0.05 0.075 0.1 0.25 0.5)    

#p1 is the element of the array found with ARRAY_ID mod P_ARRAY_LENGTH
p1=${PARRAY[`expr $SLURM_ARRAY_TASK_ID % ${#PARRAY[@]}`]}
#v is the integer division of the ARRAY_ID by the lenght of 
v=`expr $SLURM_ARRAY_TASK_ID / ${#PARRAY[@]}`
python myscript.py -p $p1 -v $v
于 2017-01-27T21:26:56.697 回答
1

如果您使用 SLURM 作业数组,您可以线性化两个 for 循环的索引,然后比较循环索引和数组任务 ID:

#!/bin/bash
#SBATCH --job-name=cv_01
#SBATCH --output=cv_analysis_eis-%j.out
#SBATCH --error=cv_analysis_eis-%j.err
#SBATCH --partition=gpu2
#SBATCH --nodes=1
#SBATCH --cpus-per-task=4
#SBATCH -a 0-154

# NxM = 5 * 31 = 154

p1_arr=(0.05 0.075 0.1 0.25 0.5)

# SLURM_ARRAY_TASK_ID=154 # comment in for testing

for ip1 in {0..4} # 5 steps
do
    for i in {0..150..5} # 31 steps
    do
        let task_id=$i/5+31*$ip1

        # printf $task_id"\n" # comment in for testing

        if [ "$task_id" -eq "$SLURM_ARRAY_TASK_ID" ]
        then
          p1=${p1_arr[ip1]}
          # printf "python myscript.py -p $p1 -v $i\n" # comment in for testing
          python myscript.py -p $p1 -v $i\n
        fi
    done
done

这个答案与 Carles 非常相似。因此,我更愿意将其写为评论,但没有足够的声誉。

于 2017-01-30T11:00:14.347 回答
0

根据此页面,作业数组会产生大量开销:

如果你的程序的运行时间很短,比如十分钟或更短,创建一个作业数组会产生很多开销,你应该考虑打包你的作业。

该页面提供了一些示例来运行您的作业类型,使用数组和“打包作业”。

如果您不想/不需要为您的工作指定资源,这是另一种方法:我不确定它是否是 Slurm 打算的用例,但它似乎可以工作,并且提交脚本看起来有点更好,因为我们不必对索引进行线性化以使其适合作业数组范式。此外,它适用于任意深度的嵌套循环。

直接将其作为 shell 脚本运行:

#!/bin/bash
FLAGS="--ntasks=1 --cpus-per-task=1"
for i in 1 2 3 4 5; do
        for j in 1 2 3 4 5; do
            for k in 1 2 3 4 5; do
                sbatch $FLAGS testscript.py $i $j $k
        done
    done
done

您需要确保在第一行使用例如testscript.py指向正确的解释器#!

#!/usr/bin/env python 
import time
import sys
time.sleep(5)
print "This is my script"
print sys.argv[1], sys.argv[2], sys.argv[3] 

或者(未经测试),您可以使用这样的--wrap标志

sbatch $FLAGS --wrap="python testscript.py $i $j $k"

而且你不需要#!/usr/bin/env python线路testscript.py

于 2017-05-09T23:01:18.690 回答