问题标签 [sungridengine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
grid - 将输出重定向到 Sun Grid Engine 阵列作业 (SGE) 的不同文件
我正在尝试执行太阳网格引擎阵列作业,并且每个任务需要不同的输出文件:test.1.out test.2.out 等。
如果我这样写我的脚本:
这些文件称为 $TASK_ID.out(1.out、2.out 等),位于 /home/myuser/
如果我这样写我的脚本:
这些文件位于正确的文件夹中,但显然具有默认名称:name.o$JOB_ID.$TASK_ID
我应该怎么办?
machine-learning - SGE 集群上的 libsvm grid.py
正如 libsvm 网站和自述文件中所述,python 工具grid.py可以在不同的计算机上运行,如下所述:
“您可以通过将作业分派到共享相同文件系统的计算机集群来进行并行网格搜索。首先,您在 grid.py 中添加机器名称:
ssh_workers = ["linux1", "linux5", "linux5"]"
我在这里有两个问题:通过 SSHWorker 运行的每个命令 - 它们是否相互独立?看起来他们并没有试图在实例之间传递信息(例如 MPI)——对吗?
我的第二个问题是:我们可以修改这个 python 脚本以通过 qsub 在 SGE 上运行,而不是在脚本中提供节点名称吗?
谢谢
辐射
java - 提交 Grid Engine 作业时缺少 Java 库
当我 qsub 运行 java 程序的脚本时,我收到此错误:
线程“主”java.lang.UnsatisfiedLinkError 中的异常:/usr/java/jdk1.6.0_16/jre/lib/amd64/xawt/libmawt.so:libXtst.so.6:无法打开共享对象文件:没有这样的文件或java.lang.ClassLoader.loadLibrary0(ClassLoader.java:1778) 的 java.lang.ClassLoader$NativeLibrary.load(Native Method) 的 java.lang.ClassLoader.loadLibrary(ClassLoader.java:1674) 的目录。 Runtime.load0(Runtime.java:770) 在 java.lang.System.load(System.java:1003) 在 java.lang.ClassLoader$NativeLibrary.load(Native Method) 在 java.lang.ClassLoader.loadLibrary0(ClassLoader. java:1778) 在 java.lang.ClassLoader.loadLibrary(ClassLoader.java:1695) 在 java.lang.Runtime.loadLibrary0(Runtime.java:823) 在 java.lang.System.loadLibrary(System.java:1028) 在sun.security.action.LoadLibraryAction。在 java.awt.Toolkit.loadLibraries(Toolkit.java:1592) 在 java.awt.Toolkit.(Toolkit.java:1614) 在 java.security.AccessController.doPrivileged(Native Method) 在 run(LoadLibraryAction.java:50) 在java.awt.Font.(Font.java:210) 在 savant.settings.BrowserSettings.(BrowserSettings.java:37) 在 savant.util.NetworkUtils.getSeekableStreamForURI(NetworkUtils.java:185) 在 savant.data.sources.BAMDataSource .(BAMDataSource.java:62) 在 IReckon.WholeGenomeExecution.main(WholeGenomeExecution.java:208)NetworkUtils.getSeekableStreamForURI(NetworkUtils.java:185) at savant.data.sources.BAMDataSource.(BAMDataSource.java:62) at IReckon.WholeGenomeExecution.main(WholeGenomeExecution.java:208)NetworkUtils.getSeekableStreamForURI(NetworkUtils.java:185) at savant.data.sources.BAMDataSource.(BAMDataSource.java:62) at IReckon.WholeGenomeExecution.main(WholeGenomeExecution.java:208)
但是,当我 qrsh 进入一个节点并运行脚本时,我没有收到错误消息。
我正在像这样运行 qsub: qsub -cwd -V
也许我需要设置一些环境变量,但 -V 不会处理吗?
linux - 完成 sge 作业后运行脚本
我正在使用太阳网格引擎 6.2u5 版本。要求是当我在完成作业上使用 qsub 命令提交作业时,我想运行一些脚本(bash 脚本)。
我如何使用 -notify 选项或任何其他方式来跟踪作业完成并在完成后执行脚本。
谢谢
grid-computing - Sun Grid Engine 重新提交作业卡在“Rq”状态
我有一个我希望是一个非常简单的问题,但我对 Sun Grid 不是很熟悉,所以我一直很难找到答案。我目前正在使用 bash 提交脚本将作业提交到网格,该脚本生成命令然后执行它。我在网上读到,如果太阳网格作业以 99 的代码退出,它会重新提交到网格。我已经成功编写了我的 bash 脚本来执行此操作:
当我使用我知道具有非零退出状态的命令将该作业提交到网格时,该作业确实似乎被重新提交,但是调度程序从未将其发送到另一台主机,而是它仍然停留在队列中状态“Rq”:
我觉得这在队列的配置选项中很简单,但我无法在谷歌上找到任何东西。我已经尝试使用该选项提交这份工作qsub -r y
,但这似乎并没有改变任何东西。
谢谢!
sungridengine - sge qstat 默认队列的名称?
在阅读了 qstat 和 sge_qstat 手册之后,我仍然不知道我可以使用什么方法来以编程方式解析我的 SGE 6.1 系统中的默认队列的名称:也就是说,作业所在的队列的名称如果我执行 qsub 命令,将提交。
我有一个空文件:
而这个文件只包含一个'-u *':
我希望有一种方法能够以编程方式获取默认情况下将提交作业的队列的名称。与此 LSF 命令中 grep 后面的名称等效的名称:
SGE有什么等价的吗?
java - DRMAA 和 shared.library.path
我尝试按照以下网址的教程使用带有 DRMAA api 的 sun Grid 引擎:http: //gridscheduler.sourceforge.net/howto/drmaa_java.html。为此,我需要加载位于 /srv/sge/lib/lx24-amd64/drmaa.so 中的 c 库。现在我使用以下代码执行我的命令:java -jar scriptName.jar -Dshared.library.path=/srv/sge/lib/lx24-amd64/ 如https://blogs.oracle.com/templedf/entry/中所述drmaa_and_the_shared_library。但我仍然得到这个例外:
线程“主”java.lang.UnsatisfiedLinkError 中的异常:java.library.path 中没有 drmaa
尝试检索会话时会引发此异常:
session = SessionFactory.getFactory().getSession();
操作系统是 linux 64 位,java 是 64 位,SGE 是 64 位,所以这都是兼容的。
有谁知道出了什么问题?
qsub - 使用 qsub 静默向 SGE 提交作业
我有一个 bash 脚本,它使用一个缓慢响应的 SGE 队列提交数百个作业qsub
(每个作业 ID 需要一秒钟才能显示出来)。
为了绕过这个耗时的过程并且在我退出 shell 时不杀死我的脚本,我通过附加&
. 虽然这有时可以为我节省半个小时,但作业 ID 仍然会出现并与命令提示符混淆。
我想知道是否可以禁止显示作业 ID 或以某种方式将作业静默提交到队列。虽然,这个链接谈到了一个-z
论点,但它不起作用,qsub
手册页上也没有提到它。
谢谢!
arrays - $SGE_TASK_ID 未使用 qsub 数组网格作业设置
使用一个非常简单的zsh
脚本:
$SGE_TASK_ID
是 sun-grid 引擎任务 ID。我正在使用 qsub 提交一系列作业。
我正在遵循 qsub 手册页 ( http://www.clusterresources.com/torquedocs/commands/qsub.shtml#t ) 中的建议,并将我的数组作业提交为
$SGE_TASK_ID 没有为此数组作业设置...有没有人知道为什么?
谢谢!
jobs - 如何从 SGE 获取失败作业列表
如何从 SGE 获取(最近)失败的作业列表(failed=100 或 exit_status=137)?从qacct帮助:
我如何使用该模式?我尝试了以下,不起作用。