问题标签 [slurm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
8868 浏览

linux - 在 SLURM sbatch 脚本中使用 Bash 变量

我正在尝试从另一个文件中获取一个值并在 SLURM 提交脚本中使用它。但是,我收到一个错误,即该值是非数字的,换句话说,它没有被取消引用。

这是脚本:

当我将其作为普通的 Bash shell 脚本运行时,它会正确打印出 procs 的数量并进行正确的mpirun调用。因此,该awk命令正确解析出 procs 的数量,并按预期取消引用变量。

但是,当我使用以下方法将其提交给 SLURM 时:

我得到错误:

有人能帮忙吗?

0 投票
3 回答
11525 浏览

linux - 如何在 SLURM 中查找从何处提交作业?

我通过 SLURM 向我们学校的 HPC 集群提交了几份工作。因为 shell 脚本都具有相同的名称,所以作业名称看起来完全一样。看起来像

如何知道作业是从哪个目录提交的,以便区分作业?

0 投票
2 回答
619 浏览

slurm - 停止 slurm sbatch 将脚本复制到计算节点

有没有办法阻止 sbatch 将脚本复制到计算节点。例如,当我运行时:

test.sh 被复制到正在执行的计算节点上的 /var/lib/slurm-llnl/slurmd/etc/。问题在于 /shared_between_all_nodes/ 中还有 test.sh 需要使用的其他脚本,我想避免对路径进行硬编码。

在 sge 中,我可以使用 qsub -by 阻止它将脚本复制到计算节点。slurm 中是否有类似的选项或配置?

0 投票
1 回答
546 浏览

gnu-parallel - Freeing unused allocated nodes on a SLURM cluster

I'm running some batches of serial programs on a (very) inhomogeneous SLURM cluster (version 2.6.6-2), using GNU 'parallel' to do the distribution. The problem that I'm having is that some of the nodes finish their tasks a lot faster than the others, and I end up with situations like, for example, a job that's allocating 4 nodes but is only using 1 during half of the simulation.

Is there any way, without administrator privileges, to free one of these unused nodes? I can mitigate the problem by running 4 jobs on individual nodes, or with files containing lists of homogeneous nodes, but it's still far from ideal.

For reference, here are the script files that I'm using (adapted from here)

job.sh

command_list.sh

0 投票
1 回答
1826 浏览

slurm - 如何获得 Slurm 作业的总 CPU 使用率?

我正在尝试获取每个作业使用的 CPU 时间总量。我发现了几个有前途的 sacct 领域,但我应该使用哪一个?

根据文档(https://computing.llnl.gov/linux/slurm/sacct.html),TotalCPU 反映了 SystemCPU 和 UserCPU 的总数,但不反映子进程。但我想要包括子进程在内的总数......

对于另一个候选人,cputimeraw 没有提供相同级别的详细信息:

我倾向于使用 cputimeraw 而不是 TotalCPU 但我想确保它是总数,包括作业产生的任何子进程。该文档没有以一种或另一种方式指示有关子进程的任何内容。

有没有人有什么建议?

谢谢,

罗伯特

0 投票
1 回答
8332 浏览

stdout - 如何更改 SLURM 更新输出文件(stdout)的频率?

我正在使用 SLURM 在超级计算机上调度作业。我已设置将--output=log.out作业标准输出中的内容放入文件 ( log.out) 的选项。我发现文件每 30-60 分钟更新一次,这让我很难检查我的工作状态。

知道为什么更新这个文件需要这么长时间吗?有没有办法更改设置,以便更频繁地更新此文件?

使用 SLURM 14.03.4-2

0 投票
2 回答
1000 浏览

slurm - SLURM 中的 -t 10-0 等破折号的时间限制是什么意思?

我刚刚看到

我在帮助中找到

所以-t肯定是有时间限制的。但是是10-010分0秒吗?还是10小时0分钟?还是别的什么?

0 投票
2 回答
499 浏览

cuda - 限制 OpenCL 访问 Intel CPU?

目前可以使用 CUDA_VISIBLE_DEVICES 环境变量限制 OpenCL 访问 Linux 上的 NVIDIA GPU。有谁知道限制 OpenCL 访问 Intel CPU 设备的类似方法?(动机:我试图强迫计算服务器的用户通过 SLURM 专门运行他们的 OpenCL 程序。)

0 投票
2 回答
732 浏览

matlab - Matlab process termination in slurm

I have two questions that to me seem related:

First, is it necessary to explicitly terminate Matlab in my sbatch command? I have looked through several online slurm tutorials, and in some cases the authors include an exit command:

http://www.umbc.edu/hpcf/resources-tara-2013/how-to-run-matlab.html

And in some they don't:

http://www.buffalo.edu/ccr/support/software-resources/compilers-programming-languages/matlab/PCT.html

Second, when creating a parallel pool in a job, I almost always get the following warning:

Warning: Found 4 pre-existing communicating job(s) created by pool that are running, and 2 communicating job(s) that are pending or queued. You can use 'delete(myCluster.Jobs)' to remove all jobs created with profile local. To create 'myCluster' use 'myCluster = parcluster('local')'

Why is this happening, and is there any way to avoid it happening to myself and to others because of me?

0 投票
1 回答
1283 浏览

matlab - 在 sbatch 中使用 --array 和 --nodelist

由于 Matlab 将如何利用计算集群上的资源的限制,我想创建几个作业,每个作业都使用给定节点上的所有内核。我可以将 --array 选项与其他参数结合使用,以确保我在单独的节点上获得每个作业。但是,由于某种原因,我们集群上的 slurm 计划将我的作业放在已经在使用的节点上,即使我正在尝试使用 -c 选项最大化给定节点上的核心:

使用 --exclusive 选项似乎并没有改变任何东西。我在单个任务上也遇到了同样的问题,我的解决方法是检查哪些节点未在使用中,并使用 --nodelist 选项专门请求这些节点。有没有办法将 --array 与 --nodelist 结合使用,以便列表中的每个作业和节点都以一一对应的方式匹配?现在 SLURM 正在尝试为每个作业使用所有节点。