问题标签 [qsub]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - 将键盘命令编码到 Bash 脚本
我有以下方式使用 qsub 提交集群作业:
有没有一种方法可以在 bash 脚本中对 RETURN 和 CTRL-D 进行编码,以便我们可以执行以下操作:
linux - 当我从 Perl 调用它时,为什么我的 awk 单行代码不起作用?
使用AWK的以下命令作为独立命令我没有任何问题,没有任何错误:
但是当我在 Perl 的qsub脚本中应用它们(即在 linux 集群中运行作业)命令时,如下所示:
它给出了以下错误
正确的方法是什么?
pbs - how to limit number of concurrently running PBS jobs
I have a 64-node cluster, running PBS Pro. If I submit many hundreds of jobs, I can get 64 running at once. This is great, except when all 64 jobs happen to be nearly I/O bound, and are reading/writing to the same disk. In such cases, I'd like to be able to still submit all the jobs, but have a max of (say) 10 jobs running at a given time. Is there an incantation to qsub that will allow me to do such, without having administrative access to the cluster's PBS server?
scripting - PBS 编程
关于 PBS 的一些简短且可能很愚蠢的问题:
1-我使用
是否可以在作业文件中提交(子)作业?
2-我有以下脚本:
对于启动 job_b,最好在 job_a 的结果完成之前拥有。是否可以设置某种障碍或其他解决方法,以便在 job_a 完成之前不会启动 job_b?
谢谢
shell - 从 qsub 集群脚本运行时,脚本无法找到目录/文件
我正在从 qsub shell 脚本在 python 脚本上调用几个 unix 命令和 python,旨在在集群上运行。麻烦的是,当脚本执行时,shell 中似乎出现了问题,因此找不到存在的目录和文件。例如,在 qsub 的 .out 输出文件中,我看到以下错误:
所以脚本不能 cd 进入一个绝对存在的目录。同样,在绝对存在的 python 脚本上调用 python 会产生错误。
知道这里可能出了什么问题,或者我如何尝试调试它?
非常感谢。
bash - 有人有在 ClusterVisionOS 上运行集群的经验吗?
我目前正在使用 ClusterVisionOS 3.1 处理集群。这将是我第一次使用集群,所以我可能还没有尝试过“显而易见的”。
我可以使用“qsub”命令向集群提交单个作业(我可以正常工作)
但是当一次提交多个作业时,问题就开始了。我可以编写一个脚本一次将它们全部发送,但是所有节点都会被我的工作占用,并且这里有更多的人想要提交他们的工作。
所以这是交易:
32 个节点(每个节点 4 个处理器/插槽)
最好的办法是告诉集群使用 3 个节点(12 个处理器)并在这些节点/处理器上排队我的所有作业,如果这甚至可能的话。如果我可以让节点为每个作业使用 1 个处理器,那将是完美的。
exit-code - 从使用 qsub 在 Sun Grid Engine 上提交的进程中获取退出代码
我想通过 Sun Grid Engine(现在:Oracle Grid Engine?)上的 qsub 提交作业。我不希望使用 -sync yes 选项或 qrsh,因为我希望我的控制程序是单线程的并且能够一次启动许多作业。这些选项会阻塞我的控制程序的线程。
但是,我想收到我启动的进程的退出状态。从手册页来看,似乎没有办法在不阻塞我的线程的情况下获取此代码。除了修改我正在启动的作业以将其退出代码打印到标准输出之外,有没有办法获得这种状态?
python - 在集群上使用 python 和 PBS 进行“令人尴尬的并行”编程
我有一个生成数字的函数(神经网络模型)。我希望在带有 Torque 的标准集群上使用 PBS 从 python 测试几个参数、方法和不同的输入(意味着函数的数百次运行)。
注意:我尝试了 parallelpython、ipython 等,但从未完全满意,因为我想要更简单的东西。集群处于我无法更改的给定配置中,这种集成 python + qsub 的解决方案肯定会对社区有益。
为了简化事情,我有一个简单的功能,例如:
其中input
是表示输入的对象,input.name
是字符串,并且do_lots_number_crunching
可能持续数小时。
我的问题是:是否有正确的方法来转换诸如参数扫描之类的东西
进入“某事”会为每次调用该model
函数启动一个 PBS 脚本?
我正在考虑一个包含 PBS 模板并从 python 脚本中调用它的函数,但还无法弄清楚(装饰器?)。
linux - 以 qsub 开头的 shell 脚本的参数
如何参数化在网格上执行的 shell 脚本(以 qsub 开头)?我有一个 shell 脚本,我使用 getopts 来读取参数。
当我使用 qsub 启动 (qsub script.sh -r firstparam -s secondparam ..) 这个工作脚本时,我收到错误消息,
qsub: 无效选项 -- s
qsub: 非法 -r 值
因为 qsub 认为参数是为自己的。然而我还没有找到任何解决方案。
谢谢
python - 在 GridEngine 集群的多个节点上运行作业
我可以访问一个 128 核集群,我想在该集群上运行并行作业。该集群使用 Sun GridEngine,我的程序是使用 Parallel Python、numpy、scipy 在 Python 2.5.8 上编写的。在单个节点(4 核)上运行作业会比单核产生约 3.5 倍的改进。我现在想把它提升到一个新的水平,并将工作拆分到大约 4 个节点上。我的qsub
脚本看起来像这样:
有谁知道如何做到这一点?