“torque”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

43 浏览

gcc - toquelib 的行为与静态和动态链接不同

这让我很困惑......我有一个看起来像这样的代码：

当我编译它时：

它工作正常，用'-static'编译。pbs_errno 为 0，我可以做我的事情。

但是，如果我删除“-static”标志，它会在我运行它时开始给我这个消息：

所以...我启动了 munge 服务（munged）并且它停止抱怨它，但是我得到 pbs_errno=15033 并且无法从集群中获取任何东西（做我的事情）。

有任何想法吗？

2014-05-29T20:45:35.500

0 投票

1 回答

104 浏览

java - 在扭矩 4 中有一个空外键

对于外键，有没有办法让扭矩将 0 值转换为空值？

我有以下架构：

我的表是用这个 sql 创建的：

可以看出，在 JuserDepend 中有一个指向 juser 表的可选外键（juserRef），但我似乎无法理解这一点。现在我无法在 juserRef 中保存一个带有空值的 juserDepend 对象，因为扭矩使用整数值 0，然后数据库会抱怨它，因为它不是有效的外键。

我首选的解决方案是将扭矩简单地转换为 0 到 null，对于 null 是允许值的所有外键。这可能吗？

java sql torque

2014-06-09T13:07:32.963

0 投票

5 回答

8828 浏览

shell - 如何获取已完成的 PBS 或 Torque 作业的信息？

我有已完成工作的 ID。如何查看其详细信息，例如执行时间、分配的节点等？我记得 SGE 有一个命令（qacct？）。但我在 PBS 或 Torque 上找不到它。谢谢。

shell pbs torque

2014-06-16T17:05:32.523

0 投票

1 回答

880 浏览

environment-variables - 在 PBS 脚本选项中使用 qsub 参数

我想使用我在 PBS-N选项中传递给 PBS 脚本的参数。例如，当我运行 PBS 脚本时：

和

它将在 name 所在的位置开始工作job_0。

有了上面，一个名为的工作job_{num}。当我尝试使用 line#PBS -N job_$num时，我收到无法创建输出文件的错误。

有没有办法实现我正在寻找的东西？

environment-variables pbs qsub torque

2014-06-28T07:18:25.297

0 投票

2 回答

419 浏览

pbs - Torque+MAUI PBS 提交作业奇怪的启动

我正在使用 Torque+MAUI 集群。

集群的利用率现在约为 10 个节点/40 个节点可用，许多作业正在排队但无法启动。

我使用以下 PBS 脚本提交qsub：

该作业立即获得 R(un) 状态，但我从qstat -n

异常部分--在中run.sh -- 1 32，因为缺少 sessionId，显然脚本根本没有运行，即 java 程序没有启动的痕迹。

在这种奇怪的运行约 5 分钟后，该作业将被设置回 Q(ueue) 状态，并且似乎不会再次运行（我已经监视了约 1 周，即使排到顶部也没有运行大多数工作）。

我尝试了 14 次提交相同的作业，并在中监视了它的节点qstat -n，成功运行了 7 个副本，节点号各不相同，但是所有分配的作业都被z0-1/*这种奇怪的启动行为卡住了。

有人知道这个问题的解决方案吗？
对于临时解决方法，如何指定不在 PBS 脚本中使用那些奇怪的节点？

pbs torque

2014-07-10T15:53:46.980

0 投票

1 回答

163 浏览

cluster-computing - 将 Maui 设置为以最大 CPU 百分比调度作业

我使用 Torque/Maui 来管理/调度作业，我想将 CPU 使用率保持在 90% 以下。我在附录 C：节点管理器 (MOM) 配置中注意到，ideal_load不max_load适合这样做。我怎么能这样做？

cluster-computing cpu schedule torque

2014-07-23T06:30:59.480

0 投票

1 回答

792 浏览

mpich - MPICH 停止跨多个节点运行

我有一个使用 MPICH 的 MPI fortran 应用程序，如果我使用它可以毫无问题地启动/运行：

在上面的例子中，我问的是 2 个节点，一旦集群上的每个节点都有 8 个 cpu。

问题是我的 /home 是通过头节点安装在计算节点上的 NFS，并且对这些磁盘的 i/o 非常慢。此外，我的应用程序有很多 i/o，根据经验，过多的 i/o 到 NFS 安装的磁盘到头节点会锁定头节点（这很糟糕），并且它可能会变得完全没有响应。

集群系统有一个磁盘，在每个节点上为每个 JOB 本地挂载（我可以使用环境变量 TMPDIR 来到达这个目录），所以我的作业需要在这个磁盘下运行。知道了这一点，我的策略就很简单了：

将文件从 /home 移动到 $TMPDIR
在 $TMPDIR 开始模拟
模型停止后，将应用程序的输出返回到 /home

如果我执行上述所有步骤，只要求一个节点的集群系统（PBS/Torque），就没有问题。

但如果我问的不止一个节点

我收到以下错误：

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69)：文件 /state/ 上的 execvp 错误partition1/74127.beach.colorado.edu/myMODEL.a（没有这样的文件或目录）

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69)：文件 /state/ 上的 execvp 错误partition1/74127.beach.colorado.edu/myMODEL.a（没有这样的文件或目录）

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69)：文件 /state/ 上的 execvp 错误partition1/74127.beach.colorado.edu/myMODEL.a（没有这样的文件或目录）

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69)：文件 /state/ 上的 execvp 错误partition1/74127.beach.colorado.edu/myMODEL.a（没有这样的文件或目录）

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69)：文件 /state/ 上的 execvp 错误partition1/74127.beach.colorado.edu/myMODEL.a（没有这样的文件或目录）

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69)：文件 /state/ 上的 execvp 错误partition1/74127.beach.colorado.edu/myMODEL.a（没有这样的文件或目录）

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69)：文件 /state/ 上的 execvp 错误partition1/74127.beach.colorado.edu/myMODEL.a（没有这样的文件或目录）

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69)：文件 /state/ 上的 execvp 错误partition1/74127.beach.colorado.edu/myMODEL.a（没有这样的文件或目录）

[proxy:0:0@compute-0-1.local] HYD_pmcd_pmip_control_cmd_cb (/tmp/mvapich2-1.8.1/src/pm/hydra/pm/pmiserv/pmip_cb.c:955): 断言 (!close) 失败

[proxy:0:0@compute-0-1.local] HYDT_dmxu_poll_wait_for_event (/tmp/mvapich2-1.8.1/src/pm/hydra/tools/demux/demux_poll.c:77)：回调返回错误状态

[proxy:0:0@compute-0-1.local] main (/tmp/mvapich2-1.8.1/src/pm/hydra/pm/pmiserv/pmip.c:226)：等待事件的解复用引擎错误

[mpiexec@compute-0-1.local] HYDT_bscu_wait_for_completion (/tmp/mvapich2-1.8.1/src/pm/hydra/tools/bootstrap/utils/bscu_wait.c:70)：其中一个进程严重终止；中止

[mpiexec@compute-0-1.local] HYDT_bsci_wait_for_completion (/tmp/mvapich2-1.8.1/src/pm/hydra/tools/bootstrap/src/bsci_wait.c:23)：启动器返回错误等待完成

[mpiexec@compute-0-1.local] HYD_pmci_wait_for_completion (/tmp/mvapich2-1.8.1/src/pm/hydra/pm/pmiserv/pmiserv_pmci.c:191)：启动器返回错误等待完成

[mpiexec@compute-0-1.local] main (/tmp/mvapich2-1.8.1/src/pm/hydra/ui/mpich/mpiexec.c:405)：进程管理器错误等待完成

我究竟做错了什么？

mpich pbs torque mpiexec

2014-08-26T22:26:57.757

0 投票

1 回答

456 浏览

hadoop - Maui+Torque 集群中的 Hadoop

我有一个 Torque+Maui 集群。是否可以在同一个集群中安装 Hadoop？如果可能的话，这样做有什么好处和坏处？

hadoop cluster-computing torque

2014-08-27T15:04:32.443

0 投票

0 回答

1765 浏览

nfs - 即使目标存在，复制输出文件时出现扭矩错误

大多数时候，我们的扭矩工作运行良好。我们时不时地收到电子邮件说：

现在，我们已经usecp正确设置，/home安装在每台机器上。大多数时候一切正常，日志文件被复制到目的地，并且没有错误电子邮件。我们只是间歇性地收到错误电子邮件。现在奇怪的是，即使我们收到这些错误电子邮件，日志文件实际上也存在于我们期望它们的目的地（例如：）/home/someuser/myjob.log。看起来日志文件已成功复制，但电子邮件除外。

我认为可能发生的事情是这样的：

作业成功完成，并将日志文件从 /var/spool 成功复制到共享 NFS 目录上的目标位置。
/var/spool 下执行主机上的日志文件被删除。
妈妈被指示再次运行作业退出程序（妈妈和服务器之间的通信可能出现故障，并且服务器认为作业尚未退出）。
妈妈再次尝试将日志文件从 /var/spool 复制到 NFS 上的目标位置，但失败了，因为它们在成功复制后已在步骤 2 中删除。

但是很难调试，因为它只是间歇性地发生。

nfs pbs torque

2014-08-28T20:11:29.717

0 投票

1 回答

4058 浏览

cluster-computing - qsub returns error when submitting jobs from node

I have a complex fortran MPI application running under a Torque/Maui system. When I run my application it produces a huge unique output (~20 GB). To avoid that, I produced a RunJob script that breaks up the running in 5 pieces, each producing smaller outputs much easier to handle.

For the moment my RunJob script stops correctly at the end of the first piece and also produces the correct output. However, when it tries to restart I get the following error message:

qsub: Bad UID for job execution MSG=ruserok failed validating username/username from compute-0-0.local

I know that this problem comes from the fact the Torque/Maui system by default does not allow a node to submit a job.

In fact, when I type this:

qmgr -c 'l s' | grep allow_node_submit

I got:

allow_node_submit = False

I do not have an administrator account just a user one

My questions are:

Is it possible to set allow_node_submit = true on the gmgr being a user ? How ? (- I guess not)
If question 1 = false, is there another way to work around this ? How ?

All the best.

cluster-computing qsub torque

2014-08-29T19:01:56.693

问题标签 [torque]

Reference