问题标签 [slurm]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1367 问题

0 投票

1 回答

226 浏览

cluster-computing - 如何在 slurm 工作中查看 cpu 使用情况

有没有办法使用 slurm 监控集群中 cpu 使用率的百分比。例如，假设我有 200 个节点，并且我发送了一个使用所有这 200 个节点的 mpi 工作，可能只有一个节点被使用（真正计算的东西）而另一个没有。是否有一个选项可以告诉我 - 200 个节点中的平均 cpu 负载，或每个 cpu 上的当前 cpu 负载？

编辑：在 BlueGene 机器上

谢谢。

cluster-computing slurm

2015-09-24T23:00:38.347

0 投票

1 回答

1894 浏览

configure - 为什么 Open MPI configure 找不到 pmi2.h 库？

嗨，我正在尝试编译 Open MPI 1.10，pmi2.h以便我可以srun根据此处的说明将其与命令一起使用https://www.open-mpi.org/faq/?category=slurm

这是我的配置命令

但我最后收到错误消息

这很奇怪，因为我看到一个pmi2.h文件/usr/include/slurm

对于配置的任何帮助，我将不胜感激。谢谢。

2015-10-01T00:00:42.243

0 投票

1 回答

437 浏览

mpi - MPI 和 Slurm 概念

我在理解以下基本概念时遇到了一些麻烦：

当 MPI 分配等级来识别计算时，究竟是谁获得了等级：进程、线程、cpu 等？
如何指定我想在 X 数量的 cpu 上运行 mpi 作业，同时使用 slurm，我看到的所有参数都是用于使用节点的？
使用 mpirun 和使用 srun 有什么区别？
我可以跨多个分区运行 mpi 作业吗？

mpi slurm

2015-10-04T14:17:02.563

0 投票

4 回答

11025 浏览

python - 在 SLURM 中运行程序时如何保存打印语句？

我正在运行包含通过 SLURM 打印语句的 Python 代码。通常，当我通过“python program.py”直接运行 Python 代码时，打印语句会出现在终端中。当我通过 SLURM 运行我的程序时，正如预期的那样，打印语句不会出现在终端中。如何将打印语句保存到文件中，以便在程序运行时检查它们？下面是我通过“sbatch submit.sh”提交的提交脚本。请注意，我已经尝试了两种方法将输出写入 test1.out 或 test2.out。请让我知道我要去哪里错了！

python slurm

2015-10-16T19:48:50.680

0 投票

1 回答

338 浏览

slurm - 在我完成所有工作后设置 slurm 发送电子邮件？

是否可以在不编写我自己的守护进程的情况下做到这一点？我知道 slurm 可以为每个工作向您发送电子邮件，但是当我没有更多待处理或正在运行的工作时，我想要一封电子邮件。

slurm

2015-10-21T01:22:09.167

0 投票

0 回答

1046 浏览

postgresql - 配置 SLURM 以使用 PostgreSQL

我最近安装了 SLURM 15.08.2 和 PostgreSQL 9.3.10

在设置调度程序以使用 slurmdbd 守护进程时，需要StorageType在 slurmdbd.conf 文件中指定 th。

官方文档指出

StorageType 定义记帐存储机制类型。目前可接受的值包括“accounting_storage/mysql”。值“accounting_storage/mysql”表示应将记帐记录写入 StorageLoc 参数指定的 MySQL 或 MariaDB 数据库。必须指定此值。

我需要指定什么值才能强制守护进程使用我的 postgresql 数据库？

slurmdbd 守护进程的详细输出是

postgresql hpc slurm

2015-10-26T18:02:23.543

0 投票

1 回答

2690 浏览

bash - 在 SLURM 中运行没有顶级脚本的二进制文件

在 SGE/PBS 中，我可以像在本地一样向集群提交二进制可执行文件。例如：

将提交一个名为 echo 的作业，它将单词“hello”写入其输出文件。

如何向 SLURM 提交类似的工作。它希望文件在第一行有一个 hash-bang 解释器。在 SLURM 我得到

或使用伪 qsub：

我不想写脚本，把#!/bin/bash我的命令放在下一行，然后将它们提交给 sbatch。有没有办法避免这种额外的工作？必须有一种更有成效的方法。

bash cluster-computing pbs sungridengine slurm

2015-10-28T20:14:27.783

0 投票

1 回答

437 浏览

email - 我是否应该期望 mailx 可以与 SLURM 一起使用？

simple_mail.sbatch如果直接从命令行运行，这个简单的脚本 ( ) 将发送两封邮件。它在头节点和我尝试过的任何集群节点上运行良好：

但是，当运行 using 时sbatch，我在捕获的标准输出中看到第一个和最后一个 echo 命令的结果，但没有发送电子邮件。

一个“包装”的命令，srun并没有更好的效果：

版本信息：

顺便说一句，在某些系统上mailx可能会被调用。mail

我在 stackoverflow 上查看了其他slurm和mailx问题，但似乎都没有解决这个问题。

我查看了环境变量，甚至尝试将所有环境变量设置为相同（即使是那些以 SLURM 开头的变量），但行为上的差异仍然存在。

email job-scheduling mailx slurm

2015-11-03T18:28:52.140

0 投票

1 回答

807 浏览

slurm - Slurm sinfo 格式

当我在 slurm 中使用“sinfo”时，我在其中一个分区附近看到一个星号（例如：RUNNING-CLUSTER*）。

分区看起来不错，其下的所有节点都处于空闲状态。

例如，当我使用“sleep 300”运行一个简单的脚本时，我可以看到队列中的作业（使用“squeue”），但它们运行了几秒钟并结束。没有错误消息（我可以在日志中看到他们失败了。那里没有更多信息）。

知道星号是干什么用的吗？说明书上没找到。

谢谢。

slurm

2015-11-13T06:19:47.970

0 投票

1 回答

942 浏览

python - Python 多处理在本地运行比在集群上运行更快（slurm）

我有以下代码

我已经在带有 6 核处理器的桌面上运行了num_proc=mp.cpu_count()它，它运行良好且快速，但是当我尝试在我们的处理集群上的 sbatch 脚本中运行这个脚本时，使用-N 1 -n 20（我们的节点每个都有24 个处理器）或任意数量的处理器，它运行速度非常慢，而且似乎只使用 10-15 个处理器。有什么方法可以优化多处理以使用 slurm？

python multiprocessing slurm

2015-11-20T01:53:34.570

1 2 3 4 5 6 7 8 9 10

问题标签 [slurm]

Reference