问题标签 [slurm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cluster-computing - 如何在 slurm 工作中查看 cpu 使用情况
有没有办法使用 slurm 监控集群中 cpu 使用率的百分比。例如,假设我有 200 个节点,并且我发送了一个使用所有这 200 个节点的 mpi 工作,可能只有一个节点被使用(真正计算的东西)而另一个没有。是否有一个选项可以告诉我 - 200 个节点中的平均 cpu 负载,或每个 cpu 上的当前 cpu 负载?
编辑:在 BlueGene 机器上
谢谢。
configure - 为什么 Open MPI configure 找不到 pmi2.h 库?
嗨,我正在尝试编译 Open MPI 1.10,pmi2.h
以便我可以srun
根据此处的说明将其与命令一起使用https://www.open-mpi.org/faq/?category=slurm
这是我的配置命令
但我最后收到错误消息
这很奇怪,因为我看到一个pmi2.h
文件/usr/include/slurm
对于配置的任何帮助,我将不胜感激。谢谢。
mpi - MPI 和 Slurm 概念
我在理解以下基本概念时遇到了一些麻烦:
- 当 MPI 分配等级来识别计算时,究竟是谁获得了等级:进程、线程、cpu 等?
- 如何指定我想在 X 数量的 cpu 上运行 mpi 作业,同时使用 slurm,我看到的所有参数都是用于使用节点的?
- 使用 mpirun 和使用 srun 有什么区别?
- 我可以跨多个分区运行 mpi 作业吗?
python - 在 SLURM 中运行程序时如何保存打印语句?
我正在运行包含通过 SLURM 打印语句的 Python 代码。通常,当我通过“python program.py”直接运行 Python 代码时,打印语句会出现在终端中。当我通过 SLURM 运行我的程序时,正如预期的那样,打印语句不会出现在终端中。如何将打印语句保存到文件中,以便在程序运行时检查它们?下面是我通过“sbatch submit.sh”提交的提交脚本。请注意,我已经尝试了两种方法将输出写入 test1.out 或 test2.out。请让我知道我要去哪里错了!
slurm - 在我完成所有工作后设置 slurm 发送电子邮件?
是否可以在不编写我自己的守护进程的情况下做到这一点?我知道 slurm 可以为每个工作向您发送电子邮件,但是当我没有更多待处理或正在运行的工作时,我想要一封电子邮件。
postgresql - 配置 SLURM 以使用 PostgreSQL
我最近安装了 SLURM 15.08.2 和 PostgreSQL 9.3.10
在设置调度程序以使用 slurmdbd 守护进程时,需要StorageType
在 slurmdbd.conf 文件中指定 th。
官方文档指出
StorageType 定义记帐存储机制类型。目前可接受的值包括“accounting_storage/mysql”。值“accounting_storage/mysql”表示应将记帐记录写入 StorageLoc 参数指定的 MySQL 或 MariaDB 数据库。必须指定此值。
我需要指定什么值才能强制守护进程使用我的 postgresql 数据库?
slurmdbd 守护进程的详细输出是
bash - 在 SLURM 中运行没有顶级脚本的二进制文件
在 SGE/PBS 中,我可以像在本地一样向集群提交二进制可执行文件。例如:
将提交一个名为 echo 的作业,它将单词“hello”写入其输出文件。
如何向 SLURM 提交类似的工作。它希望文件在第一行有一个 hash-bang 解释器。在 SLURM 我得到
或使用伪 qsub:
我不想写脚本,把#!/bin/bash
我的命令放在下一行,然后将它们提交给 sbatch。有没有办法避免这种额外的工作?必须有一种更有成效的方法。
email - 我是否应该期望 mailx 可以与 SLURM 一起使用?
simple_mail.sbatch
如果直接从命令行运行,这个简单的脚本 ( ) 将发送两封邮件。它在头节点和我尝试过的任何集群节点上运行良好:
但是,当运行 using 时sbatch
,我在捕获的标准输出中看到第一个和最后一个 echo 命令的结果,但没有发送电子邮件。
一个“包装”的命令,srun
并没有更好的效果:
版本信息:
顺便说一句,在某些系统上mailx
可能会被调用。mail
我在 stackoverflow 上查看了其他slurm和mailx问题,但似乎都没有解决这个问题。
我查看了环境变量,甚至尝试将所有环境变量设置为相同(即使是那些以 SLURM 开头的变量),但行为上的差异仍然存在。
slurm - Slurm sinfo 格式
当我在 slurm 中使用“sinfo”时,我在其中一个分区附近看到一个星号(例如:RUNNING-CLUSTER*)。
分区看起来不错,其下的所有节点都处于空闲状态。
例如,当我使用“sleep 300”运行一个简单的脚本时,我可以看到队列中的作业(使用“squeue”),但它们运行了几秒钟并结束。没有错误消息(我可以在日志中看到他们失败了。那里没有更多信息)。
知道星号是干什么用的吗?说明书上没找到。
谢谢。
python - Python 多处理在本地运行比在集群上运行更快(slurm)
我有以下代码
我已经在带有 6 核处理器的桌面上运行了num_proc=mp.cpu_count()
它,它运行良好且快速,但是当我尝试在我们的处理集群上的 sbatch 脚本中运行这个脚本时,使用-N 1 -n 20(我们的节点每个都有24 个处理器)或任意数量的处理器,它运行速度非常慢,而且似乎只使用 10-15 个处理器。有什么方法可以优化多处理以使用 slurm?