问题标签 [sbatch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2200 浏览

python - 如何使用不同的节点向 SLURM 提交作业?

我必须使用 sbatch 在集群上运行多个模拟。在一个文件夹中,我有要运行的 Python 脚本和要与 sbatch 一起使用的文件:

我要做的是运行相同的 Python 脚本,但对 --nodes 使用不同的值。我怎样才能做到这一点?此外,我想为每次运行创建一个文件夹,将保存 slurm 文件(输出),命名为“nodes_xy”。

0 投票
3 回答
2969 浏览

gpu - 如何在多个 GPU 节点上获取分配给 SLURM 作业的 GPU ID?

当我将带有选项 --gres=gpu:1 的 SLURM 作业提交到具有两个 GPU 的节点时,如何获取分配给该作业的 GPU 的 ID?是否有为此目的的环境变量?我使用的 GPU 都是 nvidia GPU。谢谢。

0 投票
2 回答
525 浏览

slurm - SLURM:保存作业脚本

在 SLURM 中,我可以轻松地指定用于登录作业脚本的文件:

现在,我使用以编程方式生成的作业脚本。每当我提交作业时,我想将该作业脚本保存为logs/jobscript-%j.

我怎么能那样做?(主要的困难似乎是得到%j。)

0 投票
2 回答
7023 浏览

job-scheduling - SLURM 每个节点提交多个任务?

我发现了一些非常相似的问题,这些问题帮助我找到了一个似乎可以工作的脚本,但是我仍然不确定我是否完全理解为什么,因此这个问题..

我的问题(示例):在 3 个节点上,我想在每个节点上运行 12 个任务(总共 36 个任务)。此外,每个任务都使用 OpenMP,并且应该使用 2 个 CPU。在我的例子中,一个节点有 24 个 CPU 和 64GB 内存。我的脚本是:

这似乎按我的要求工作,在一个节点上连续运行任务,直到该节点上的所有 CPU 都在使用中,然后继续在下一个节点上运行进一步的任务,直到再次使用所有 CPU,等等。

我的问题.. 我不确定这是否真的是它的作用(?),因为我没有完全理解 srun 关于 -n 的手册页,而且我之前没有使用过 srun。主要是我的困惑来自“-n”:在 -n 的手册页中,它说“默认是每个节点一个任务,..”,所以我预计如果我使用“srun -n 1”,那么只有一个任务是在每个节点上运行,似乎并非如此。此外,当我尝试例如“srun -n 2 ./program”时,它似乎只是将完全相同的程序作为两个不同的任务运行两次,而无法使用不同的输入文件..我想不出为什么会这样有用?

0 投票
1 回答
806 浏览

matlab - 如何避免在集群的头节点上运行代码

我正在使用集群来运行我的代码。我使用 runm 文件在集群上运行我的代码。runm 脚本如下:

今天,当我的代码运行时,我收到了一封来自集群老板的电子邮件,上面说请不要在头节点上运行您的代码并使用其他节点。我做了很多搜索,但我找不到如何将节点从主节点更改为其他节点。有人可以帮我吗?有没有可以在 runm 中使用的脚本来更改它?

谁能帮我避免在头节点上运行我的代码?

0 投票
1 回答
1893 浏览

slurm - 处理 SLURM .out 输出

sbatch用来运行脚本,我希望输出文本从某个点写入文件,即我想回显一些文本以便用户可以看到,但是在某个命令之后我希望所有输出都写入一份文件。有没有办法做到这一点?如果没有,我怎样才能完全禁用输出日志记录?

编辑:示例:

0 投票
1 回答
1538 浏览

python - 如何确保 slurm 中的 python 提交脚本位于发出 sbatch 命令的位置?

我有一个sbatch使用以下命令运行的 python 提交脚本slurm

当我这样做时,事情不能正常工作,因为我假设,该batch.py过程没有继承正确的环境变量。因此,它不是batch.pysbatch命令完成的地方运行,而是从其他地方运行(/我相信)。我已经设法通过用 bash 脚本包装 python 脚本来解决这个问题:

这种临时的破解方式似乎有效,尽管它似乎完全避免了这个问题,而不是解决它。有人知道如何以更好的方式解决这个问题吗?

例如,我知道在 docker 中存在-wor-WORKDIR以便 docker 容器知道它应该在哪里。我想知道是否有类似的东西存在于 slurm 中。

0 投票
1 回答
3321 浏览

slurm - SLURM / Sbatch 创建许多小输出文件

我在 SLURM 集群上运行管道,出于某种原因,许多较小的文件(大小在 500 到 2000 字节之间)沿线命名slurm-XXXXXX.out(其中XXXXXX是数字)。我试图在 SLURM 网站上找出这些文件是什么,但我找不到任何关于它们的提及。我假设它们是系统在解析我的管道时使用的某种正在进行的文件?

如果重要的话,我正在运行的管道正在使用snakemake. 我知道我以前见过这些类型的文件,但没有snakemake,但我当时并不是什么大问题。我担心在工作流程的每个步骤之后清除这些文件的工作目录会中断正在进行的步骤,所以我目前没有对它们做任何事情。

这些文件是什么,我怎样才能抑制它们的输出,或者在相应的工作完成后删除它们?我是否以某种方式搞砸了我的工作流程,这就是创建它们的原因?

0 投票
1 回答
1639 浏览

bash - Slurm 内联 sbatch 命令提交

使用 PBS 调度程序可以以这种方式启动没有脚本的批处理命令:

qsub -l select=1:ncpus=12:mem=112GB -l walltime=00:30:00 -- /usr/bin/bash -c "mpirun -np 12 sleep 10"

是否可以在 Slurm 中使用 sbatch 进行操作?

0 投票
1 回答
350 浏览

slurm - sbatch slurm 作业,分别释放 CPU 资源

我有一个由许多节点组成的集群,其中包含许多内核,我只想运行数千个作业,每个作业只需要一个 CPU。最好用sbatch. 在阅读了几个小时的文档后,我仍然遇到了问题。我目前的设置是:

我从其中几个开始sbatch,他们似乎很好地排队。

my_experiment此脚本启动 100 个预期的实例。不幸的是,即使 99 个实验已经结束,它们似乎也占用了所有 100 个 CPU 的资源。我该如何缓解这种情况?

其次,它们似乎并不彼此共享节点。即使节点有 +40 个核心。

是否有可能处理sbatch一堆任务并让它们单独释放资源?