问题标签 [sungridengine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1525 浏览

linux - qsub 中的别名命令

qusb 的 -V 选项仅导入环境变量,但不导入 .bashrc 的别名。例如

并且 qsub 脚本是

在这种情况下echo $PYTHONPATHls工作正常,但llla出错ll: command not found。那么如何在 qsub 中导入别名命令呢?

或者有没有更好的替代方法,alias以便命令(llla)表现得像ls并且可以轻松导入

0 投票
1 回答
590 浏览

scheduler - 如何设置 sun Grid Engine 调度策略来满足这一点?

我们使用太阳网格引擎(实际上是开放的调度器网格)作为drms。假设我们有 3 个用户:uA、uB、uC。uA 提交 100000 个工作,然后 uB 提交 10 个工作,然后 uC 提交 1 个工作。在默认的调度策略下,Grid Engine 会运行 uA 的 100000 个作业,然后是 uB 的 10 个,然后是 uC 的 1 个作业,因此 uB 和 uC 需要等待很长时间。

我们希望调度器可以像这样选择要运行的作业:

首先,选择1 uA的工作,1 uB的工作,1 uC的工作

然后,选择 19 uA 的工作,19 uB 的工作

然后,选择uA的其他工作

如何设置适合此的策略?

0 投票
1 回答
3168 浏览

working-directory - 如何在太阳网格引擎中找到工作目录?

qsub假设我们在 path 下提交作业/path/to/working/dir,在作业挂起后,我们可以获得作业的一些信息qstat,但没有提供工作目录信息qstat

我们怎样才能得到这个?

0 投票
2 回答
5129 浏览

unix - vmem 和 maxvmem

我有一个关于 vmem 和 maxvmem 的问题。我在网上搜索过,但对这两个词的解释确实很混乱。我所做的是输入:

qstat -j 1154926 | grep vmem

输出为:cpu=00:05:25, mem=23.21121 GBs, io=2.70481, vmem=239.277M, maxvmem=351.359M

谁能帮我理解变量的含义?

最好的

0 投票
1 回答
2320 浏览

cluster-computing - 如何在 SGE 中抑制错误和输出日志文件

我在生成大型日志文件的 Sun Grid Engine 批处理系统中运行代码。我可以使用 -o 和 -e 选项选择输出位置,但想知道我是否可以告诉它根本不记录输出。

0 投票
0 回答
453 浏览

queue - sun gridengine 错误“作业 119232.1 的牧羊人退出,退出状态 = 26”

我们使用gridengine(完全开放的grid scheduler 2011.11.p1)作为批处理系统。刚才我添加了一个名为 execd 的主机host094,但是当在那里提交作业时,发出错误,作业状态为Eqw,登录$SGE_ROOT/default/spool/host094/messages说:

什么意思?

0 投票
0 回答
406 浏览

exit-code - Open Grid Scheduler/Sun Grid Engine qrsh bad exit code on halt/reboot

我通过 qrsh 调用在现场实例上使用 OGS。为了让我的程序正常工作,我需要能够知道作业何时因系统关闭而失败(我失去了现场实例)。

如果我们通过 ssh 执行远程命令并且远程系统出现故障,则返回的退出代码为 255。

我的问题是,对于 OGS,当使用 qrsh 执行远程命令并且远程系统出现故障时,返回的退出代码为 0。0 表示“好的,一切都好”。因此,无法从该代码中知道不,这不好,我需要重新安排。

(当然,我可以更改远程调用以返回特定代码,但由于它不是标准的,我宁愿避免这样做。)

0 投票
4 回答
12396 浏览

linux - 分段错误后的空核心转储文件

我正在运行一个程序,它被分段错误中断。问题是创建了核心转储文件,但大小为零。

您是否听说过这样的案例以及如何解决?

我有足够的磁盘空间。我已经ulimit -c unlimited对核心文件的大小进行了限制——无论是运行它还是放在提交的批处理文件的顶部——但仍然有 0 字节的核心转储文件。包含这些文件的文件夹的权限为 uog+rw,而创建的核心文件的权限仅为 u+rw。

该程序由 C++ 编写并使用 Grid Engine 的 qsub 命令在 linux 集群上提交,我不知道这些信息与这个问题是否相关。

0 投票
1 回答
3540 浏览

bash - SGE 上的非法变量名,但不是本地的。

我有一个运行 samtools mpileup 的简短 bash 脚本。它在本地运行良好,但是当我尝试在 SGE 上运行它时,我收到“非法变量名”反馈。

SGE 变量语法与 bash 不同吗?

0 投票
2 回答
708 浏览

sqlite - SGE+ sqlite3:错误:数据库被锁定

我正在尝试运行在集群(SGE)中使用sqlite3的脚本。

该脚本使用 lockfile 创建一个锁填充数据库并释放锁。

/commun/data/ 从所有节点都可见。/commun/data/_tmp.idp448.lock 是我创建的一个随机名称,我目前是唯一使用我们新集群的人。

没有 qsub 脚本可以正常工作:

qsub被调用时:

这是一个 sqlite3 错误。

您有什么想法或建议,在 SGE 方面,可能是导致该问题的原因,即这种行为差异?

谢谢皮埃尔

更新:

我在集群的一个节点上以 root 身份登录。以下简单命令失败:(/commun/data/stats2.sqlite 不存在)

它在 ~root 中工作: