问题标签 [torque]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parallel-processing - 使用 PBS 脚本并行执行
我正在尝试编写 PBS 脚本。
我必须在一个集群中使用 4 个节点并运行 4 次可执行程序。困难在于 4 个执行必须并行运行,一个节点一个
目前,我刚刚分配了节点
问题是我不知道如何确保程序并行运行。我该怎么做 ?
memory - TORQUE SERVER:内存超出时如何避免工作被杀?
我安装了一个 Torque 服务器,我添加了一个节点,它工作正常。
但我不明白作业配置是如何工作的。
这是我的作业配置:“#PBS -l vmem=128mb”,我的作业使用更多内存,因此 Torque 服务器会终止该进程。如果我增加该值,它会很好地工作。
pvmem = 作业中任何单个进程使用的最大虚拟内存量。(在 Unicos 上被忽略。)
有一个服务器配置可以让进程在超出内存时运行,但我没有找到此信息。
cluster-computing - 如何等待扭矩作业阵列完成
我有一个将数据结构拆分为块的脚本。使用扭矩作业阵列处理块,然后合并回单个结构。
合并操作取决于作业数组的完成。如何让合并操作等待扭矩作业数组完成?
我的脚本如下:
我努力了:
并且:
都没有奏效。前者导致错误[qsub: 非法-W值],后者也导致错误:qsub: script file 'job1' cannot be loaded - No such file or directory。
cluster-computing - 在集群上找不到 STDIN.o# 和 STDIN.e# 文件
我目前正在使用一个使用 TORQUE 的集群。最近,当我使用 qsub 提交作业时,可以使用 qstat 检查其状态,但找不到 STDIN.e12345678 或 STDIN.o12345678 文件(作业数量只是示例)。使用 qstat -f 命令显示文件应该位于我的主目录中,但它们不存在(也没有隐藏)。可能是什么问题呢?
我希望我能在正确的 Q+A 页面上解决问题。另外我只是一个不太了解集群在做什么的用户,所以如果我使用了错误的表达方式,请原谅。
cluster-computing - PBS 非统一进程请求和 qstat 输出
我正在开发一个 18 节点集群,运行 TORQUE/PBS Pro/Open MPI。
设置 - 2 个 CPU/节点,12 个内核/CPU(因此每个节点允许 24 个进程)。
如果我提交需要在节点之间进行不均匀拆分的 PBS 作业,例如需要 58 个进程的作业,我可以通过以下方式拆分它:
它使用所有 24 个内核分配 2 个节点,使用 10 个内核分配 1 个节点。所以我现在应该有 58 个任务正在运行。
但是,当我执行时qstat -a
,输出显示我只有 48 个任务正在运行。它似乎从不计算不均匀分裂的节点。
那么,这 10 个额外的进程是否真的在运行?这是怎么回事?只是输出qtsat
不正确吗?
我翻遍了所有我能找到的 PBS 自述文件/手册,没有运气。
mpi - Torque + mpirun + 资源分配
我在具有 24 个内核的单台机器上使用 Open MPI 运行 Torque。为什么可以在我的作业中指定,例如,nodes=1:ppn:2 并且仍然能够运行 mpirun -np 12 WhatEverCommand 指定的作业?在这种情况下,作业在 12 个核心上执行,即使“节点”表示 2 个 CPU。指定“节点”选项不会对提交的作业使用的资源有任何限制吗?如果没有,那么如何通过覆盖声明的资源来防止用户违反服务器规则?
另一方面 - 指定 nodes=1:ppn=8 和 mpirun 没有“-np”选项,只给我 1 个 cpu 运行作业。
我有那么糟糕并且在这里缺少一些基本的东西吗?
torque - Request number of jobs submitted with Torque
How would one request to see the total number of jobs that a user has currently submitted? This could be running jobs, queued jobs, or both. Preferably, I would like to see all of the jobs that I have currently (running and queued).
openmpi - Hydra 和 Torque 有什么区别,哪个更好:MPICH2 或 OpenMPI
我有两个问题:
Hydra 和 Torque 有什么区别,或者以其他方式问:与 Torque 相比,Hydra 还提供什么?如果我选择使用 Torque (+ MAUI),我是否需要 Hydra?
另外,MPICH2 比 OpenMPI 有什么优势,因为 OpenMPI 支持 IB 并且还不断支持 Windows 平台?对我来说,它看起来像瑞士刀。我错了吗?
bash - 当作业运行时,PBS(扭矩)调度程序不会从 .bash_profile 加载我的别名?
我的主目录中的 .bash_profile 文件中有一堆别名声明、函数、PATH 添加等。我还使用 PBS(扭矩)调度系统。通常,一切正常,我可以从 bash 访问我的别名。但是,当我提交工作时,我的别名没有被加载。
我想也许 .bash_profile 文件在作业开始运行时没有被加载,所以在我的作业脚本中我包含了一个~/.bash_profile
语句,我可以通过包含一个小语句来确认正在访问该文件echo Testing!
,但我的别名仍然是'工作。
这是我的 .bash_profile 的示例:
这是我的作业脚本 commands.sub 的示例:
但是,我总是得到这个输出:
谁能给我一些建议以使这项工作正常进行?!谢谢!
linux - RHEL 6.5 上的扭矩安装
我想在 RHEL 6 单机(32 个 CPU)上安装 TORQUE。
我按照手册的所有说明进行安装,但最后我遇到了错误。以下是我遵循的所有步骤:
第一步,确保 libxml2-devel openssl-devel gcc gcc-c++ 已安装并且是最新的:
然后我下载并提取了最后一个版本。然后我运行了默认配置:
我运行了 make 和 make install:
没有错误。
我将 trqauthd 守护进程配置为在系统启动时自动启动:
那里有第一个错误。
错误代码的意思是:
无论如何,我一直安装到最后,我设法启动了妈妈和服务器服务,但最终得到了:
你能帮助我吗?我可以为您提供所需的所有日志/信息。谢谢!!