问题标签 [pbs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache - Ubuntu + PBS + 阿帕奇?如何将正在运行的作业列表显示为网站?
是否有插件/包来显示 PBS 队列的状态信息?我目前在我的 PBS 集群的登录节点上运行 apache 网络服务器。我想显示状态信息并能够执行最少的查询,而无需从头开始编写(或修改一个古老的 python 脚本,ala jobmonarch)。 请注意,接受/赏金的解决方案必须适用于 Ubuntu。
更新:除了下面提到的 ganglia,我还查看了Rocks Cluster Toolkit,但我坚定地想留在 Ubuntu。所以我更新了问题以反映这一点。
更新 2:我还查看了PBSWeb和MyPBS ,两者似乎都不适合我的需求。第一个与当前系统太落伍了,第二个更侧重于成本估算和项目预算。它们都很好,但我对资源可用性、工作完成和一般状态更新更感兴趣。 所以我可能会从头开始写我自己的——从 8 月 15 日开始。
matlab - 连接笔记本电脑/台式机以形成 MATLAB 计算集群?
我有在远程集群上运行并行作业和在单个本地机器上运行并行(parfor)作业的经验,但从未尝试过创建自己的集群。我可以访问几台笔记本电脑/台式机/服务器(除一台服务器之外的所有设备都具有 root 访问权限),并且想知道我是否可以将它们全部(或一些)连接起来以形成一个本地集群(总共大约有 30 个核心)。
pbs - PBS 批处理系统是否跨节点移动多个串行作业?
如果我需要“并行”运行许多串行程序(因为问题简单但耗时 - 我需要为同一个程序读取许多不同的数据集),如果我只使用一个节点,解决方案很简单。我所做的就是在每个命令之后继续提交带有&符号的串行作业,例如在作业脚本中:
它自然会在不同的处理器上运行每个串行程序。这适用于登录服务器或独立工作站,当然也适用于只要求一个节点的批处理作业。
但是,如果我需要运行同一程序的 110 个不同实例来读取 110 个不同的数据集怎么办?如果我使用提交 110 ./program# 命令的脚本提交到多个节点(比如 14 个),批处理系统是否会在不同节点上的不同处理器上运行每个作业,或者它会尝试在相同的情况下运行它们, 8核节点?
我尝试使用简单的 MPI 代码来读取不同的数据,但会导致各种错误,110 个进程中约有 100 个成功,其他进程崩溃。我也考虑过作业数组,但我不确定我的系统是否支持它。
我已经在单个数据集上广泛测试了串行程序 - 没有运行时错误,并且我没有超出每个节点上的可用内存。
queue - 如何找到可用扭矩 pbs 队列的完整列表?
问:如何在“典型”Torque MPI 系统上找到可用的 PBS 队列?(询问我们的管理员需要 24 小时以上,并且系统会随着不断迁移而变化)
(例如,“Std8”是一种可能的队列)
#PBS -q 标准 8
execution-time - PBS 脚本的作业执行时间(串行作业)
我试图弄清楚使用Portable Batch System
(PBS)完成的串行作业的执行时间。该信息是否在输出文件 (task.o*) 中,位于 Epilogue 部分的 Resources 下?是walltime
吗?
fortran - 以扭矩运行程序
我在 fortran 中有一个代码,我对其进行编译,然后将其作为 pbs 作业在超级计算机中运行。我想修改源代码并再次编译它,同时保留已经运行的程序。我的问题是,如果我有一个 pbs 作业使用不同的可执行文件运行,我修改源代码并制作一个新的可执行文件会发生什么。原始可执行文件的结果会被修改吗?
谢谢。
bash - 扭矩的 job_state 值列表
Torque 中 job_state 的可能值是多少?
我查看了相关的手册页还没有找到完整的列表。
pbs - 有没有办法改变当前正在运行的 PBS 作业的 walltime
我低估了一份工作需要的时间。是否可以在运行时更改作业的时间限制?
python - 运行调用使用 PBS 提交的外部 MPI 程序的并行 Python 线程
我对 python 很陌生,我不确定在分布式集群上实现多线程/多进程代码的最佳方法是什么。
我正在尝试使用 Python 编写一个包装脚本,该脚本调用使用 PBS 排队系统在大型集群上运行的外部 MPI 程序。下面给出了我一直在处理的一种(非常)简化的脚本类型,其中代码移动到特定目录,运行外部 MPI 程序并检查结果以查看是否有任何大的变化。
然后使用以下命令将其提交到队列:
我想要做的是search_loop
在从列表中读取的不同目录(例如包含不同的起始位置)中并行运行该函数的多个版本。这些进程的 IO 非常繁重,每次调用 MPI 计算可能需要几分钟才能运行。
该threading
模块可以用于此目的还是该multiprocessing
模块是更好的选择?我可能需要event
在线程/进程之间传递简单的消息,例如上面示例中的布尔值。
另外,如何确保 python 脚本没有使用我分配给 MPI 运行的处理器?
debugging - 在扭矩中设置两个队列?
我在扭矩设置中有一个称为“批处理”的队列。我想为调试作业创建一个名为“db”的新队列。“db”队列会有几个限制,例如最大 CPU 时间为 10 分钟等。两个队列原则上将使用相同的节点。我可以使用命令“qmgr”创建新队列,这没有问题。
我的问题是,如果两个队列都使用相同的节点,会有什么问题吗?我不知道来自不同队列的两个进程之间是否存在相互引用。通常我在超级计算机中观察到的是,它们为不同的队列使用不同的节点,但在我们的例子中,我们只有一个小集群,在队列之间共享资源是没有意义的。
谢谢。