问题标签 [sungridengine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1405 浏览

queue - 如何检查我对 sge 上某些队列的访问权限

我只是想知道是否有一些命令告诉我是否可以使用 sge 访问集群上的某个队列。谢谢:)

0 投票
1 回答
423 浏览

sungridengine - 如何允许任何主机在 Oracle/Sun Grid Engine 中提交作业?

我们有一个专门用于开发和测试的内部网络,这个网络上有一个 OGE 集群。我想允许该网络上的任何机器提交作业,而不必手动将它们一一添加为提交主机。我试过做一个通配符,但它不喜欢我的语法。有没有办法做到这一点?

谢谢!

0 投票
1 回答
294 浏览

shell - qmake 使用带有管道 shell 命令的导出失败

我在开放的 sun-grid 引擎 (gridengine-GE2011.11) 上使用 qmake (v3.82) 时遇到问题,我使用以下 makefile 代码缩小了问题范围:

使用以下命令:

我得到这个输出:

它不使用 export
工作 它不使用 $(shell) 命令中的管道
它工作 它使用 FOO:=$(shell) 工作(带有一个 ':')
它工作在 qmake 命令中使用 -j 1 (或不并行化)
它使用常规制作

正是这些因素一起搞砸了一些事情,而这恰好是我的 makefile 中罕见的情况。

有谁知道是什么原因导致这个或知道修复?

0 投票
0 回答
383 浏览

grid - 是否有适用于 Google Compute Engine (GCE) 的 Starcluster?

有谁知道 GCE 是否有 Starcluster 等价物?我很高兴将 Starcluster 与 EC2 一起用于令人尴尬的并行作业。现在我想试试 GCE。我很乐意为正在进行的任何项目做出贡献,但我没有找到任何东西。

现在,我想我会手动安装我需要的软件(即 Open Grid Engine)并生成一个副本图像。不太难,但我想我会先检查这里。

0 投票
3 回答
663 浏览

google-compute-engine - 在 Google Compute Engine 上设置和运行网格作业的工具?

我需要在 Google Compute Engine 上设置和运行“令人尴尬”的并行作业。我正在寻找工具来促进这一点。

在 EC2 上,我使用 MIT 的 Starcluster 来设置集群,然后将作业提交给 SGE。

Google Compute Engine 是否有类似的工具可用?

如果没有,我可能会手动设置一个 Condor 集群来完成这些工作。嗡嗡声杀。

0 投票
1 回答
1176 浏览

variables - 未找到 SGE 命令,未定义变量

我正在尝试设置一个新的计算集群,目前在 SGE 中使用 qsub 命令时遇到错误。这是一个显示问题的简单实验:

测试.sh

测试.sh.eXX

测试=你好:找不到命令。

测试:未定义的变量。

测试.sh.oXX

警告:无法访问 tty(错误的文件描述符)。

因此在这个 shell 中没有作业控制。

如果我在头节点 (sh test.sh) 上运行脚本,则输出是正确的。我通过键入“qsub test.sh”将作业提交给 SGE。

如果我在已建立的计算集群(如 HPC)上以相同的方式提交完全相同的脚本作业,它会按预期完美运行。什么设置可能导致此问题?

感谢您对此事的任何帮助。

0 投票
1 回答
220 浏览

linux - Sun Grid Engine 无法获取 exec 节点的主机信息

我在 Centos 6 上为一个包含两个节点(A 和 B)的小型集群设置了一个网格引擎。我在两者上都运行了 inst_sge -x -m 并将 B 作为 exec 节点添加到 A。然后当我尝试运行 qhost 时,我得到了,

节点 B 不返回任何信息。当我在 B 上运行 qhost 时,在 A/B 切换时返回类似的输出。我在哪里做错了?

0 投票
2 回答
9036 浏览

linux - 如何 QLOGIN 到共享特定作业 ID 的节点

我有这样的现有qlogin工作:

上述作业是在 linux 中使用标准 qlogin 命令提交的:

我想要做的是执行另一个 qlogin 以便该进程在具有上述 Job-ID 的同一节点中运行3530770

这个想法是,如果它在top命令中正确完成,我可以看到提交给上述作业 ID 的相同运行进程。

有没有办法做到这一点?

0 投票
1 回答
174 浏览

unix - 使用 qsub 在 SGE 上提交工作

我正在尝试将我的脚本提交给本地服务器上的 SGE,但由于某种原因,系统无法识别该选项。

我的提交看起来像这样:qsub ./script.sh

根据我在网上阅读的内容,这应该可以。有谁知道为什么它不起作用?提交作业的正确语法是什么?

0 投票
1 回答
948 浏览

ipython - 在 Sun Grid Engine 上使用 IPython Parallel

我正在尝试将 IPython Parallel 用于一个非常常见的场景,我想在运行 Sun Grid Engine 的集群上运行模拟,但我找不到可靠的方法来做到这一点。

这是我想做的事情:

我想用几个不同的参数值运行数值模拟(使用 Numpy 数组)——这些任务显然/'令人尴尬'并行。我可以(通过 ssh)访问运行 Grid Engine 的集群的头节点。到目前为止,我一直在使用 QSUB 命令运行 shell 脚本,但这非常笨拙(处理节点崩溃等),我正在寻找一种在 Python 中实现所有这些的方法。

IPython 似乎非常适合这种情况,但要让设置顺利运行变得很麻烦。我在头节点上使用 IPCLUSTER 启动 n 个(比如 20 个)引擎,然后将 .json 文件复制到我使用 IPython.parallel.Client 连接的本地计算机。

我已经设置 IPClusterStart.controller_launcher_class = 'SGEControllerLauncher'IPClusterEngines.engine_launcher_class = 'SGEEngineSetLauncher'

IPCLUSTER 似乎运行良好;我从 ssh 终端上的头节点得到这个输出:

但是,我有这些问题:

  1. 很多时候,即使我看到上面显示引擎已成功启动的消息,许多引擎仍无法向控制器注册。当我使用 20 个引擎启动 IPCLUSTER 时,我可以看到 Grid Engine 队列中出现了 10 - 15 个引擎。我不知道其他引擎会发生什么——没有输出文件。在这 10-15 个引擎中,仅启动其中一些引擎向控制器注册,我在它们的输出文件中看到了这一点:

    在其他人身上,我看到了这个:

    知道为什么会这样吗?

  2. 有时,引擎启动并成功注册,但是当我让它们运行一些非常简单的东西时它们开始死亡,view.execute('%pylab')我得到的唯一例外是:

    [引擎异常] Traceback(最近一次调用最后):文件“/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/IPython/parallel/client/client.py”,第 708 行, 在 _handle_strand_msgs 中引发错误。EngineError("Engine %r dead while running task %r"%(eid, msg_id)) EngineError: Engine 1 dead while running task 'b9601e8a-cff5-4037-b9d9-a0b93ca2f256'

  3. 以这种方式启动引擎意味着只要引擎正在运行,我就占用节点和队列,即使它们没有执行任何操作。是否有一种简单的方法来启动引擎,以便它们仅在您想要运行某些脚本时才会生成,并且一旦它们返回计算结果就会关闭?

  4. Grid Engine 似乎每次都在不同的节点上启动控制器,因此 IPCLUSTER 配置文件中的 --ruse 标志没有用;每次使用 IPCLUSTER 时,我都必须复制 JSON 文件。有没有办法避免这种情况?

如果有人可以为这种常见场景提供一个简单的工作流程,那将非常有帮助:使用 IPython 并行通过 SSH 连接将明显并行的作业提交到 SGE 集群。应该有某种方法来处理引擎崩溃的重新提交,如果有一种方法可以仅在模拟期间使用集群资源,那也很好。