问题标签 [pbs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
4587 浏览

parallel-processing - PBS,刷新标准输出

我有一个长期运行的 Torque/PBS 工作,我想监控输出。但是只有在作业完成后才会复制日志文件。有没有办法说服 PBS 刷新它?

0 投票
2 回答
14024 浏览

mpi - 在 open-mpi/ mpi-run 中加载共享库

我正在尝试使用 mpi run 使用扭矩调度程序运行我的程序。虽然在我的 pbs 文件中我加载了所有库

但它给出了错误,即

我猜错误在于变量 LD_LIBRARY_PATH 未在所有节点中设置。我将如何使它工作?

0 投票
2 回答
1144 浏览

bash - 运行 MATLAB 的 Bash 脚本错误

我正在尝试在集群中运行 matlab 脚本(ga_opt_main.m)。我必须编写一个作业提交文件,它本质上只是一个 shell 脚本。但我从来没有写过shell脚本,这就是我写的

MATLAB 在后台打开,但我的工作没有运行。相反,我收到一个错误文件说

关于为什么会发生这种情况以及如何避免这种情况的任何想法?谢谢!

0 投票
1 回答
1637 浏览

pbs - 在 PBS 中,如何指定不使用的节点

当您向 PBS 服务器提交作业时,是否可以指定我们不想使用的节点?

谢谢

0 投票
2 回答
2040 浏览

c++ - 如果可执行文件在两个或多个节点上运行,为什么不能看到环境变量?

我正在使用 MPI 在 C++ 中编写一个程序(我将其称为“启动器”),以“生成”第二个可执行文件(“从属”)。根据集群有多少节点可供启动器使用,它将在每个节点上启动从属服务器,从属服务器也将通过 MPI 与启动器进行通信。当从节点完成其数学运算后,它会告诉启动器该节点现在可用,并且启动器将另一个从节点派生到空闲节点。关键是在一组异构机器上运行 1000 次独立计算,这些计算取决于第二个可执行文件。

这是在我自己的计算机上工作的,在那里我创建了一个“假”机器文件(或主机文件),为程序提供了两个节点:localhost 和 localhost。启动器生成两个从站,当其中一个结束时,启动另一个从站。这告诉我产卵过程正常工作。

当我将它移动到我实验室的集群时(使用扭矩/maui 来管理它),如果我要求 1(一个)节点,它也可以工作。如果我要求更多,我会收到一个缺少库的错误(准确地说是 libimf.so。来自英特尔编译器的库)。lib在那里,节点可以看到它,因为如果我只要求一个节点,程序就会运行。

我的 PBS 看起来像这样:

当我尝试两个或更多节点时,启动器不会生成任何可执行文件。我得到这样的输出:

我在邮件列表中发现了另一个人的问题,例如我的问题,但没有解决方案。(http://lists.mcs.anl.gov/pipermail/mpich-discuss/2011-July/010442.html)。唯一的答案建议尝试查找节点是否可以看到 lib(如果存储 lib 的目录已安装在节点上),所以我尝试了

ssh node2 ls /opt/intel/composerxe-2011.3.174/compiler/lib/intel64/libimf.so >> $log_file

在我的 PBS 脚本中,并且 lib 存在于节点可以看到的文件夹中。

在我看来,torque/maui 似乎没有将环境变量导出到所有节点(即使我不知道为什么它不会),所以当我尝试使用 MPI_Spawn 在另一个节点中运行另一个可执行文件时,它找不到库。这有任何意义吗?如果是这样,你能提出一个解决方案吗?任何人都可以提供任何其他想法吗?在此先感谢,马塞洛

编辑:

按照其中一个答案中的建议,我安装了 OpenMPI 以使用 mpiexec 测试选项“-x VARNAME”。在 PBS 脚本中,我将执行行更改为以下内容:

但收到以下错误消息:

从互联网上,我可以收集到这个错误通常来自多次执行 mpiexec,比如/path/to/mpiexec mpiexec -n 2 my_program我的情况一样。

我相信我应该补充一点,生成的“从属”程序使用端口与“启动器”程序通信。启动器使用 MPI_Open_port 和 MPI_Comm_accept 打开一个端口,然后在从属程序运行 MPI_Comm_connect 时等待从属程序连接。

就像我上面所说的,当我只要求一个节点时,所有这些都有效(使用 MPICH2)。使用 OpenMPI,即使我只要求一个节点,我也会收到上述错误。

0 投票
1 回答
4761 浏览

csh - 如何在 PBS 扭矩中使用 qsub -v 命令?

我想通过使用“qsub -v”命令将变量传递给 csh 脚本。我知道我们可以列出参数值对如下,

有谁知道这些参数的值是否可以是字符串、以逗号分隔的数字列表或文件名?例如,下面的命令是否可行?

非常感谢你,

0 投票
1 回答
3247 浏览

parallel-processing - 如何在一个 PBS 作业提交中运行多个命令

我写了一个只需要 1-4 cpu 的代码。但是当我在集群上提交作业时,我必须至少占用一个节点,每个作业有 16 个核心。所以我想在我提交的每个作业的每个节点上运行几个模拟。我想知道是否有一种方法可以在一项工作中并行提交模拟。

这是一个示例:我的代码需要 4 个 CPU。我为一个节点提交了一个作业,我希望该节点运行我的代码的 4 个实例(每个实例具有不同的参数)以占用所有 16 个内核。

0 投票
1 回答
848 浏览

bash - 如何确定工作在 PBS 队列中的位置?

我正在使用一个使用 PBS/Torque 进行作业调度的计算集群。队列有时可能会很长,例如,我现在在超过 800 个队列中提交了一些作业(据报告showq显示了完整的作业列表,但据我所知,这些不一定在执行顺序)。

我想知道我的工作在队列中的哪个位置;在我之前处理多少?我想得到一些输出,如:Job <id>: 417/862. 这样我至少会有一些进展和等待时间的迹象。但是,我无法找到如何做到这一点。可以做到吗,怎么做?

0 投票
0 回答
715 浏览

cluster-computing - pbs作业忙时无输出

我在使用 PBS 时遇到了问题,在我提交的所有作业中,往往有一小部分不会产生应有的任何输出。我必须重新提交他们几次,直到他们都产生了输出。我还注意到,当其他用户提交大量作业时,这尤其糟糕。在这种情况下,我的所有作业都无法生成预期的输出文件。

我只是 PBS 的用户,所以不明白发生了什么。如果有人可以提出一些建议,那就太好了。谢谢。

0 投票
2 回答
100 浏览

google-app-engine - 在 App Engine 上以特定于 URL 的方式管理延迟

我正在使用 GAE 上的应用程序来接收集群上运行的 PBS pro 生成的电子邮件。该应用程序通过电子邮件解析集群作业的统计信息并生成一个简单的报告。

问题是,当集群上启动大量作业时,应用程序可能会在几秒钟内收到 1000 多封电子邮件。大量实例被启动来处理请求。我可以通过将允许的延迟设置为大约几秒来控制这一点,但这会在为具有报告的应用程序的首页提供服务时产生可见的延迟。

有没有办法为每个单独的 URL 设置可接受的延迟,以便

可以有高延迟而不会导致更多实例启动,但如果任何其他 URL 导致高延迟,将启动更多实例?

- 安德鲁