问题标签 [lsf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1513 浏览

linux - 对 bjob​​s 输出进​​行排序

有没有办法根据 submit_time 对 bjob​​s 输出进​​行排序?还是根据其他领域?

JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME

0 投票
2 回答
355 浏览

mpi - LSF 的批处理脚本,其中只有一个 MPI 进程具有 2 个或更多线程

我的程序使用 MPI+pthreads,其中 n-1 个 MPI 进程是纯 MPI 代码,而唯一一个 MPI 进程使用 pthreads。最后一个进程只包含 2 个线程(主线程和 pthread)。假设我要在其上运行此程序的 HPC 集群由计算节点组成,每个计算节点有 12 个核心。我应该如何编写批处理脚本以最大限度地利用硬件?

以下是我编写的批处理脚本。我使用 export OMP_NUM_THREADS=2 因为最后一个 MPI 进程有 2 个线程,并且必须假设其他每个进程也有 2 个线程。

然后我为每个节点分配 6 个 MPI 进程,因此每个节点可以运行 6xOMP_NUM_THREADS = 12(=每个节点上的核心数)线程,尽管所有 MPI 进程只有一个有 1 个线程。

我怎样才能为此编写更好的脚本?

0 投票
1 回答
347 浏览

batch-processing - 在 LSF 批处理作业中通过 grep -v 重定向标准错误

我正在使用一个生成大量输出到 stderr 的库(实际上没有办法直接在代码中抑制输出;它是 ROOT 的 Minuit2 最小化器,它以无法抑制输出而闻名)。我正在通过 LSF 系统运行批处理作业,并且错误输出文件太大以至于超出了我的磁盘配额。呃。

当我在 shell 上本地运行时,我会:

抑制输出,就像这里所做的那样。 这很好用,但不幸的是,在 LSF 上运行时,我似乎无法让它或它的任何变体工作。我认为这是由于 LSF 没有产生必要的子外壳,但目前尚不清楚。

我通过向 LSF 传递提交脚本来批量运行。相关线路是:

除了前面提到的巨大错误文件的问题之外,它的效果很好。

当我尝试将该行更改为

我最终得到

在错误日志文件中。

知道如何完成我想要的,或者为什么这不起作用?

万分感谢!

0 投票
1 回答
379 浏览

lsf - 在 bsub 之后立即记录 bjob​​ 信息

我正在寻找一种在提交作业启动后立即将信息记录到文件中的方法。

通常,在作业完成后,所有作业状态都会附加到日志文件中,但我想知道它在开始时的信息。

我知道有 -B 标志,但我希望它在一个文件中,我也可以执行以下操作:

bsub -J jobby -o run_job.log bjob​​s -l -J jobby > jobby.log; 运行作业

但也许有人知道这样做的更时髦的方式。

0 投票
1 回答
480 浏览

cluster-computing - 如何按提交时间/作业名称对作业列表进行排序?

在 LAVA 或 LSF 中,如何按提交时间/作业名称对bjob​​s命令的输出进行排序?
bjobs通常会造成混乱。我在手册中找不到正确的选项,例如,在这个手册中。

0 投票
2 回答
622 浏览

sas - LSF 中 jStatus 日志值的含义

我目前正在尝试破译lsb.events日志文件的内容,该文件由 Platform Computing “Platform Process Manager”(Flow Manager)版本 8.1 创建。

从各种文档来源中,我看到了 jStatus 变量的以下描述:

  • 4=运行
  • 32=JOB_STAT_EXIT
  • 64=作业_状态_完成

但是在 JOB_STATUS 条目中,还有 jStatus 值 2 和 192。 这些值代表什么?

将 SAS 标记为与此实现捆绑在一起。另外,我观察到在某些情况下,我们的 lsb.events 文件中的实际字段与根据上述文档应该出现的字段不一致。

0 投票
1 回答
498 浏览

perl - 在 LSF 命令中返回管道命令的退出代码

我希望我的问题不是太具体...

关于如何返回通过管道传输到另一个命令的命令的退出代码有很多问题和答案,但我的情况有点不同......

我有一个通用命令,我将输出传递到语法着色脚本。该命令通过 LSF 的 bsub 执行。像这样的东西:

bsub <switches> "command | colorize"

假设该命令返回一个非零退出值。由于 colorize 命令,bsub 返回零退出值。

如果我不管它——

bsub <switches> "command"

退出值是命令中正确的非零值。

有没有办法用管道获得非零值?

为了全面披露,这个 bsub 实际上是通过 perl 中的 system() 调用来调用的。只要 bsub 返回非零,系统调用就应该返回非零并且一切正常。

我查看了如何通过 $PIPESTATUS 从管道命令中获取退出代码,但我认为它在这种情况下不起作用,因为 1)我是从 perl 而不是 shell 运行的,2)我不知道是否 bsub会返回的。

0 投票
1 回答
476 浏览

bash - LSF bsub 等待变量

我有一个问题要说,job1 在 LSF 中使用变量名动态等待 job2,这是我的代码

0 投票
0 回答
268 浏览

database - 是否有一个快速的数据库可以在允许的情况下提供近似结果 - 要求时提供准确的结果

我创建了数千个模拟的作业阵列,这些模拟在网络连接的服务器集群上执行,这些服务器都具有本地磁盘以及连接到 NFS 磁盘驱动器。

是否有一个数据库可以分布在以下列方式运行的服务器之间:

  1. 当我提交我的作业数组时,每个单独的作业在单独的服务器上运行以将结果发送到分布式数据库。
  2. 虽然作业数组仍在运行,但用户可以从数据库请求部分摘要 - 数据库可以选择不等待所有分布式节点的所有最新结果,而是以某种方式“即兴发挥”
  3. 用户可以在作业数组完成后请求完整的摘要,这会导致数据库确保它返回来自其所有节点的所有数据的准确摘要,并且所有节点仍然没有从作业接收数据(对于声明的静态时间)。

换句话说,当我告诉它时,我想要一个快速的数据库和一个准确的数据库,从 LSF 作业数组中的数千个作业接收大量数据。我需要监控 LSF 作业数组结果的进度,但愿意在监控时放弃一些准确性以提高速度,但在完成所有操作后需要准确的结果。

为每个作业存储的数据是小的作业 ID,小的 PASS/FAIL,大的作业如何失败。当分类脚本需要快速访问作业数组的所有数据库数据时,可能只对极少数作业进行抽查,直到作业数组中的所有作业结束。

0 投票
1 回答
468 浏览

linux - LSF“订单”资源字符串

我试图使用 LSF 将作业提交到 LSF 中使用最少的机器

它按预期工作,但所有作业(背靠背提交)最终都在同一个主机(使用最少的主机)中,因此机器负载很重,最终导致作业性能不佳。有没有办法将连续提交的作业分散到使用最少的机器上?或者一种计算机器上使用了多少个插槽的方法?