问题标签 [slurm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - Slurm Versioning - 2.X and 1X
I would like to know where the difference between Slurm versions around 2.X.X
and 13-15.X
are.
The most detailed list I could find regarding versioning is here: http://www.schedmd.com/#news
It seems that with Slurm version 2.6.1
another version named 13.12.0-pre1
came out.
However, nowhere is explained, how these two versions differ from each other.
While the version 13.X
is still under development (currently 15.X
), it seemed to have stopped for Slurm version 2.6.7
.
Are these two different versions compatible to each other? Are upgrades from 2.X
to 15.X
possible? Are these versions completely diffferent? And if so, in what do they differ?
mpi - Slurm 的 srun 比 mpirun 慢
如果在下面我将 'mpirun' 替换为 'srun',我的 mpi+openmp 作业运行速度会慢 3 倍!
mpi 实现细节:
slurm - 在“空闲”附近带有星号的 Slurm 服务器
我正在使用 Slurm。当我跑
信息-内尔
通常会看到指定为 的服务器idle
,但有时它附近也有一个小星号(像这样:)idle*
。
这意味着什么?我找不到任何相关信息。(服务器已启动并正在运行)。
slurm - SLURM sbatch 对可执行文件的多个并行调用
我有一个可执行文件,它需要多个选项和多个文件输入才能运行。可以使用可变数量的内核调用可执行文件以运行。
例如可执行文件 -a -b -c -file fileA --file fileB ... --file fileZ --cores X
我正在尝试创建一个 sbatch 文件,该文件将使我能够使用不同的输入多次调用此可执行文件。每个调用都应该使用 X 核分配到不同的节点(与其余节点并行)。核心级别的并行化由可执行文件处理,而在节点级别由 SLURM 处理。
我尝试使用 ntasks 和多个 srun,但第一个 srun 被多次调用。
另一种方法是重命名文件并在扩展名之前使用 SLURM 进程或节点号作为文件名,但这并不实用。
对此有何见解?
slurm - 如何让 SBATCH 通过电子邮件发送标准输出?
我想让 slurm 系统myprogram
在计算完成后通过电子邮件发送输出。所以我写了SBATCH
如下
邮件系统报告
我如何构建邮件命令以让主题行$SLURM_JOB_NAME
和文件中的邮件内容STDOUT
,例如JOB${SLURM_JOBID}.out
在我的情况下?
wolfram-mathematica - 使用 Slurm 提交 .m 批处理作业后,我可以在不更改原始提交的情况下编辑我的 .m 文件吗?
假设我想在集群上运行一个作业:job1.m
Slurm 处理批处理作业,我正在加载 Mathematica 以保存输出文件 job1.csv
我提交了 job1.m,它在队列中。现在,我编辑 job1.m 以具有不同的变量和参数,并告诉它将数据保存到 job1_edited.csv。然后我重新提交job1.m。
现在我在队列中有两个批处理作业。
我的输出文件会怎样?job1.csv 会是原始 job1.m 文件中的数据吗?job1_edited.csv 会是来自已编辑文件的数据吗?还是 job1.csv 和 job1_edited.csv 是相同的输出?
:(
提前致谢!
python - 中断并重新启动写操作
我目前正在集群上运行一段 Python 代码。slurm 对我实施的部分规则是我的代码的挂钟运行时间有时间限制。大多数时候这并不是一个真正的问题,因为我可以简单地使用 pickle 检查我的代码,然后重新启动它。
然而,在代码的最后,我需要写出我的所有数据(在所有计算完成之前我不能写),这可能需要一些时间,因为可以收集非常大的数据。
我现在的问题是,在某些情况下,代码会被 slurm 终止,因为它超出了运行时间限制。
有没有办法中断写操作,停止代码,然后从我离开的地方重新开始?
python - Slurm 多处理 Python 作业
我有一个 4 节点 Slurm 集群,每个集群有 6 个核心。我想使用 Multiprocessing 提交一个测试 Python 脚本(它生成打印正在运行的节点的主机名的进程),如下所示:
我使用 SBATCH 脚本提交此文件,该脚本指定节点 = 4 和 ntasks-per-node = 6,但我发现 Python 脚本执行了 4*6 次。我只希望作业执行一次脚本,并允许 Slurm 将进程生成分布到集群中。
我显然不明白这里的东西......?
slurm - 使用 slurm JobID 作为输入?
是否可以使用 JobID 作为您提交的脚本的输入?
我知道您可以使用 %j 使用 JobID 命名日志文件,但是是否可以执行类似的操作,例如
make-dir.sh 在哪里
就目前而言,它将打印 %j,但我希望它打印 JobID。
谢谢。
slurm - 在 SLURM 中与 mpi 任务一起运行“监控”任务
我有一个 mpi 工作,我使用 sbatch 脚本在 slurm 中运行,它看起来像:
我想监视“myprog”进程的内存/cpu 使用情况和其他一些行为。我已经编写了一个简单的脚本(称为“监视器”),它可以做到这一点,但我很难理解如何使用 sbatch 在每个分配的节点上运行它的一个副本,同时作为“myprog”。
我想我需要将上面的内容修改为:
但我很困惑a)这意味着“监视器”是否会在后台运行,b)我如何控制“监视器”的运行位置。