问题标签 [slurm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - Slurm:获取帐户限制
我们的集群使用 SLURM 来管理我们的作业队列。Slurm 正在监控每个帐户使用了多少核心小时数,并将降低从已使用超过分配的核心小时数的帐户提交的作业的优先级。
slurm 中是否有一个命令可以显示我的帐户的这些限制?我想知道在降低优先级之前我可以使用的核心小时数。
multithreading - 当我尝试启动不同的线程时,如何避免重复作业(每个核心一个)?
我正在处理多个大的独立文件(每个文件的进程相同,进程之间没有通信)。所以,我的情况似乎很适合并行多核处理。而且,事实上,我可以访问具有多核的漂亮服务器(Scientific Linux -Red Hat Enterprise-)。
我正在尝试用 Perl 编写一些脚本以利用这些内核。我尝试了threads
模块和Parallel::ForkManager
. 我使用 将作品启动到服务器sbatch
,在那里我可以定义我将使用的任务(核心)的数量(以及我将占用的内存等)。尽管如此,当我启动一个选择X个任务的作业时,该作业并没有在核心之间划分,而是总是重复执行(X次,每个核心一次)。我确定我错过了一些重要的东西(而且是基本的!),但是经过一周的努力,我不知道它是什么。怎么了???
这是一个示例 Perl 脚本 ( test.pl
):
在这里,一个sbatch
用于启动它的脚本示例:
输出(正如我所说,似乎整个过程在每个核心都重复了一次):
lsf - SLURM 显示未完成作业的标准输出和标准错误
我曾经使用带有 LSF 的服务器,但现在我刚刚过渡到带有 SLURM 的服务器。
SLURM 中 bpeek(用于 LSF)的等效命令是什么?
bpeek bpeek 显示未完成作业的标准输出和标准错误输出
我在任何地方都找不到文档。如果您对 SLURM 有一些好的参考资料,也请告诉我。谢谢!
linux - SLURM 中的工作状态
我想查看我最近在集群上运行的所有作业(已完成、失败和正在运行)。我还希望看到每个工作有 1 个条目。执行sacct
每个作业重新运行 3 行,使用State: FAILED, FAILED, COMPLETED
. 这是什么意思?如何查看我想查看的实际信息?
我也不明白 a JobName
of是什么true
意思。
这是输出的副本:
提交脚本(注意 <% %> 中的值由 R 中的包 BatchJobs 处理):
linux - 使用 slurm 作业 ID
当我在集群上启动计算时,我通常有一个单独的程序在最后进行后处理:
我想避免输入错误并自动插入好工作 ID。任何想法?谢谢
slurm - slurm 作业调度程序 sacct 仅显示挂起和正在运行的作业,没有序言
我对 slurm 很陌生。我正在研究如何仅显示当前正在运行和待处理的作业,没有序言。
为什么要打印序言以及序言是什么?
cluster-computing - 使用 OpenMPI 的节点间进程的非均匀分布
我正在使用SLURM资源管理软件在集群上使用 OpenMPI 运行我的可执行文件。我想找到一种方法来指定应该为每个节点分配多少进程和哪些进程,其中每个节点的进程数可能不同。
澄清我正在寻找的示例:假设我想在 3 个节点上运行 7 个进程。然后我想说:节点 1 应该运行秩为 n 的进程,节点 2 和 3 应该分别运行剩余进程中的 3 个。
我不在乎哪个物理节点是节点 1,因为我使用的集群上的所有节点都是相等的。此外,我不知道 SLURM 将分配哪些节点,因此我无法在主机文件中硬编码节点的名称。我发现的 OpenMPI 文档中的一个示例将为我的示例定义这样的主机文件:
但我对这种方法有两个问题:
- 我不知道节点的名称 aa、bb、cc。
- 即使我认识他们,节点 aa 上的进程也不一定具有正确的等级。
hadoop - Slurm:在salloc与srun下执行的代码有什么区别
我正在使用由 slurm 管理的集群来运行一些纱线/hadoop 基准测试。为此,我在 slurm 分配的节点上启动 hadoop 服务器,然后在它们上运行基准测试。我意识到这不是运行生产 hadoop 集群的预期方式,但需要。
为此,我首先编写了一个与 srun eg 一起运行的脚本srun -N 4 setup.sh
。该脚本编写配置文件并在分配的节点上启动服务器,编号最小的机器充当主节点。这一切都有效,我能够运行应用程序。
但是,因为我想启动服务器一次,然后在它们上启动多个应用程序,而不是在开始时重新启动/编码所有内容,所以我想salloc
改用它。我原以为这将是一个简单的运行salloc -N 4
然后运行的情况srun setup.sh
。不幸的是,这不起作用,因为不同的服务器无法相互通信。有人可以向我解释一下使用srun
和使用salloc
之间的操作环境有什么区别srun
吗?
非常感谢
丹尼尔
slurm - 国家“流失”是什么意思?
当我使用时,sinfo
我看到以下内容:
国家“流失”是什么意思?
python - 使用 Slurm 的 Python 多处理:摊位
我在 SLURM 集群上保留了一些节点,并希望在这些节点上运行 python 脚本。在一个节点(服务器)上,python 脚本应该用作业填充队列并将这些作业分派给客户端。大多数时候这工作正常,但偶尔脚本会停止。当使用 Ctrl+C 时,事实证明,在这种情况下,一个(或有时更多)节点似乎卡在了<Finalize object, dead>
:
我不知道可能是什么原因。也许,它看起来像是与垃圾收集器有关的东西。
这是我运行的脚本: