问题标签 [sungridengine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - qsub 中的别名命令
qusb 的 -V 选项仅导入环境变量,但不导入 .bashrc 的别名。例如
并且 qsub 脚本是
在这种情况下echo $PYTHONPATH
,ls
工作正常,但ll
会la
出错ll: command not found
。那么如何在 qsub 中导入别名命令呢?
或者有没有更好的替代方法,alias
以便命令(ll
或la
)表现得像ls
并且可以轻松导入
scheduler - 如何设置 sun Grid Engine 调度策略来满足这一点?
我们使用太阳网格引擎(实际上是开放的调度器网格)作为drms。假设我们有 3 个用户:uA、uB、uC。uA 提交 100000 个工作,然后 uB 提交 10 个工作,然后 uC 提交 1 个工作。在默认的调度策略下,Grid Engine 会运行 uA 的 100000 个作业,然后是 uB 的 10 个,然后是 uC 的 1 个作业,因此 uB 和 uC 需要等待很长时间。
我们希望调度器可以像这样选择要运行的作业:
首先,选择1 uA的工作,1 uB的工作,1 uC的工作
然后,选择 19 uA 的工作,19 uB 的工作
然后,选择uA的其他工作
如何设置适合此的策略?
working-directory - 如何在太阳网格引擎中找到工作目录?
qsub
假设我们在 path 下提交作业/path/to/working/dir
,在作业挂起后,我们可以获得作业的一些信息qstat
,但没有提供工作目录信息qstat
。
我们怎样才能得到这个?
unix - vmem 和 maxvmem
我有一个关于 vmem 和 maxvmem 的问题。我在网上搜索过,但对这两个词的解释确实很混乱。我所做的是输入:
qstat -j 1154926 | grep vmem
输出为:cpu=00:05:25, mem=23.21121 GBs, io=2.70481, vmem=239.277M, maxvmem=351.359M
谁能帮我理解变量的含义?
最好的
cluster-computing - 如何在 SGE 中抑制错误和输出日志文件
我在生成大型日志文件的 Sun Grid Engine 批处理系统中运行代码。我可以使用 -o 和 -e 选项选择输出位置,但想知道我是否可以告诉它根本不记录输出。
queue - sun gridengine 错误“作业 119232.1 的牧羊人退出,退出状态 = 26”
我们使用gridengine(完全开放的grid scheduler 2011.11.p1)作为批处理系统。刚才我添加了一个名为 execd 的主机host094
,但是当在那里提交作业时,发出错误,作业状态为Eqw
,登录$SGE_ROOT/default/spool/host094/messages
说:
什么意思?
exit-code - Open Grid Scheduler/Sun Grid Engine qrsh bad exit code on halt/reboot
我通过 qrsh 调用在现场实例上使用 OGS。为了让我的程序正常工作,我需要能够知道作业何时因系统关闭而失败(我失去了现场实例)。
如果我们通过 ssh 执行远程命令并且远程系统出现故障,则返回的退出代码为 255。
我的问题是,对于 OGS,当使用 qrsh 执行远程命令并且远程系统出现故障时,返回的退出代码为 0。0 表示“好的,一切都好”。因此,无法从该代码中知道不,这不好,我需要重新安排。
(当然,我可以更改远程调用以返回特定代码,但由于它不是标准的,我宁愿避免这样做。)
linux - 分段错误后的空核心转储文件
我正在运行一个程序,它被分段错误中断。问题是创建了核心转储文件,但大小为零。
您是否听说过这样的案例以及如何解决?
我有足够的磁盘空间。我已经ulimit -c unlimited
对核心文件的大小进行了限制——无论是运行它还是放在提交的批处理文件的顶部——但仍然有 0 字节的核心转储文件。包含这些文件的文件夹的权限为 uog+rw,而创建的核心文件的权限仅为 u+rw。
该程序由 C++ 编写并使用 Grid Engine 的 qsub 命令在 linux 集群上提交,我不知道这些信息与这个问题是否相关。
bash - SGE 上的非法变量名,但不是本地的。
我有一个运行 samtools mpileup 的简短 bash 脚本。它在本地运行良好,但是当我尝试在 SGE 上运行它时,我收到“非法变量名”反馈。
SGE 变量语法与 bash 不同吗?
sqlite - SGE+ sqlite3:错误:数据库被锁定
我正在尝试运行在集群(SGE)中使用sqlite3的脚本。
该脚本使用 lockfile 创建一个锁,填充数据库并释放锁。
/commun/data/ 从所有节点都可见。/commun/data/_tmp.idp448.lock 是我创建的一个随机名称,我目前是唯一使用我们新集群的人。
没有 qsub 脚本可以正常工作:
当qsub被调用时:
这是一个 sqlite3 错误。
您有什么想法或建议,在 SGE 方面,可能是导致该问题的原因,即这种行为差异?
谢谢皮埃尔
更新:
我在集群的一个节点上以 root 身份登录。以下简单命令失败:(/commun/data/stats2.sqlite 不存在)
它在 ~root 中工作: