问题标签 [slurm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
226 浏览

cluster-computing - 如何在 slurm 工作中查看 cpu 使用情况

有没有办法使用 slurm 监控集群中 cpu 使用率的百分比。例如,假设我有 200 个节点,并且我发送了一个使用所有这 200 个节点的 mpi 工作,可能只有一个节点被使用(真正计算的东西)而另一个没有。是否有一个选项可以告诉我 - 200 个节点中的平均 cpu 负载,或每个 cpu 上的当前 cpu 负载?

编辑:在 BlueGene 机器上

谢谢。

0 投票
1 回答
1894 浏览

configure - 为什么 Open MPI configure 找不到 pmi2.h 库?

嗨,我正在尝试编译 Open MPI 1.10,pmi2.h以便我可以srun根据此处的说明将其与命令一起使用https://www.open-mpi.org/faq/?category=slurm

这是我的配置命令

但我最后收到错误消息

这很奇怪,因为我看到一个pmi2.h文件/usr/include/slurm

对于配置的任何帮助,我将不胜感激。谢谢。

0 投票
1 回答
437 浏览

mpi - MPI 和 Slurm 概念

我在理解以下基本概念时遇到了一些麻烦:

  • 当 MPI 分配等级来识别计算时,究竟是谁获得了等级:进程、线程、cpu 等?
  • 如何指定我想在 X 数量的 cpu 上运行 mpi 作业,同时使用 slurm,我看到的所有参数都是用于使用节点的?
  • 使用 mpirun 和使用 srun 有什么区别?
  • 我可以跨多个分区运行 mpi 作业吗?
0 投票
4 回答
11025 浏览

python - 在 SLURM 中运行程序时如何保存打印语句?

我正在运行包含通过 SLURM 打印语句的 Python 代码。通常,当我通过“python program.py”直接运行 Python 代码时,打印语句会出现在终端中。当我通过 SLURM 运行我的程序时,正如预期的那样,打印语句不会出现在终端中。如何将打印语句保存到文件中,以便在程序运行时检查它们?下面是我通过“sbatch submit.sh”提交的提交脚本。请注意,我已经尝试了两种方法将输出写入 test1.out 或 test2.out。请让我知道我要去哪里错了!

0 投票
1 回答
338 浏览

slurm - 在我完成所有工作后设置 slurm 发送电子邮件?

是否可以在不编写我自己的守护进程的情况下做到这一点?我知道 slurm 可以为每个工作向您发送电子邮件,但是当我没有更多待处理或正在运行的工作时,我想要一封电子邮件。

0 投票
0 回答
1046 浏览

postgresql - 配置 SLURM 以使用 PostgreSQL

我最近安装了 SLURM 15.08.2 和 PostgreSQL 9.3.10

在设置调度程序以使用 slurmdbd 守护进程时,需要StorageType在 slurmdbd.conf 文件中指定 th。

官方文档指出

StorageType 定义记帐存储机制类型。目前可接受的值包括“accounting_storage/mysql”。值“accounting_storage/mysql”表示应将记帐记录写入 StorageLoc 参数指定的 MySQL 或 MariaDB 数据库。必须指定此值。

我需要指定什么值才能强制守护进程使用我的 postgresql 数据库?

slurmdbd 守护进程的详细输出是

0 投票
1 回答
2690 浏览

bash - 在 SLURM 中运行没有顶级脚本的二进制文件

在 SGE/PBS 中,我可以像在本地一样向集群提交二进制可执行文件。例如:

将提交一个名为 echo 的作业,它将单词“hello”写入其输出文件。

如何向 SLURM 提交类似的工作。它希望文件在第一行有一个 hash-bang 解释器。在 SLURM 我得到

或使用伪 qsub:

我不想写脚本,把#!/bin/bash我的命令放在下一行,然后将它们提交给 sbatch。有没有办法避免这种额外的工作?必须有一种更有成效的方法。

0 投票
1 回答
437 浏览

email - 我是否应该期望 mailx 可以与 SLURM 一起使用?

simple_mail.sbatch如果直接从命令行运行,这个简单的脚本 ( ) 将发送两封邮件。它在头节点和我尝试过的任何集群节点上运行良好:

但是,当运行 using 时sbatch,我在捕获的标准输出中看到第一个和最后一个 echo 命令的结果,但没有发送电子邮件。

一个“包装”的命令,srun并没有更好的效果:


版本信息:

顺便说一句,在某些系统上mailx可能会被调用。mail


我在 stackoverflow 上查看了其他slurmmailx问题,但似乎都没有解决这个问题。

我查看了环境变量,甚至尝试将所有环境变量设置为相同(即使是那些以 SLURM 开头的变量),但行为上的差异仍然存在。

0 投票
1 回答
807 浏览

slurm - Slurm sinfo 格式

当我在 slurm 中使用“sinfo”时,我在其中一个分区附近看到一个星号(例如:RUNNING-CLUSTER*)。

分区看起来不错,其下的所有节点都处于空闲状态。

例如,当我使用“sleep 300”运行一个简单的脚本时,我可以看到队列中的作业(使用“squeue”),但它们运行了几秒钟并结束。没有错误消息(我可以在日志中看到他们失败了。那里没有更多信息)。

知道星号是干什么用的吗?说明书上没找到。

谢谢。

0 投票
1 回答
942 浏览

python - Python 多处理在本地运行比在集群上运行更快(slurm)

我有以下代码

我已经在带有 6 核处理器的桌面上运行了num_proc=mp.cpu_count()它,它运行良好且快速,但是当我尝试在我们的处理集群上的 sbatch 脚本中运行这个脚本时,使用-N 1 -n 20(我们的节点每个都有24 个处理器)或任意数量的处理器,它运行速度非常慢,而且似乎只使用 10-15 个处理器。有什么方法可以优化多处理以使用 slurm?