问题标签 [condor]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cluster-computing - 如何修复 ssh 超时?
all 集群系统是使用 Perceus 程序构建的。(scientific linuxs 6.9) 我在vnfs文件中安装了condor。在此之后,当我建立一个 ssh 连接时,我遇到一个问题,即 ssh 连接在 10 分钟后断开连接。该命令无法识别,如下所示。ssh 在安装 condor 之前没有断开连接。但是,我们确认 ping 是在没有丢失的情况下完成的。如何解决这个问题?请提出解决方案 在此处输入图像描述
condor - Condor 没有在所有可用的机器/处理器上运行
condor_status 显示总共有 470 个可用,298 个无人认领,但一次只有 172 个工作在运行。无论我尝试提交多少次作业,我仍然只能得到 172。如果我更改“套接字”,我会得到更多或更少,但永远不会接近可用的 470。
我的要求很简单,每台机器都应满足以下标准:
我检查了日志文件,我的所有运行似乎都有足够的磁盘空间和内存,我看不到任何东西似乎限制了工作。对我来说唯一可疑的是,对于不运行的作业,分配的磁盘和内存比使用的要多得多,而且似乎从未使用过 cpu。
对于 DO RUN 的作业,它们通常使用 < 400 MB 的内存和 <400,000 KB 的磁盘空间。我尝试在提交文件中设置这些要求,但它似乎没有改变任何东西。
关于可能限制我可以运行的进程数量的任何线索?
condor - 在每个队列命令 Condor 之后将 $(Process) 重置为 0
我正在尝试通过利用多个队列命令使用一个提交脚本向秃鹰进行多次提交。在明显误解了这个命令是如何工作的之后,$(Process)
我设置了这样的代码:
我最初认为在每个队列命令之后 $(Process) 被重置为 0 并且我的脚本采用的参数依赖于此。然而,在尝试提交这些之后,我发现事实并非如此,而且这种情况$(Process)
还在不断上升。(为了清楚起见 - 我会认为在queue 5
完成 5 个作业的排队后,当我们来到它的下一个实例时,$(Process)
它会评估为 0 而不是 5)
我的问题是,有没有办法$(Process)
在每个队列语句之后重置为 0?在我的实际代码中,我有 28 个队列实例,需要不同数量的迭代才能将正确的参数传递给我的可执行文件。
我想解决的方法是制作 28 个单独的提交脚本,并使用一个 shell 脚本将它们全部提交,但如果可能的话,我宁愿不去那里。
condor - Condor 使用 cctools/work_queue 提交给 OSG
我正在使用 HTCondor,我想向 Open Science Grid 提交工作。我正在使用 cctools work_queue 并将作业提交给 OSG UW Madison chtc 文档说添加+WantFlocking = true
和+WantGlideIn = true
提交文件,与指定 Universe(香草)的位置相同。
谁能告诉我这是否是要修改的正确提交文件?https://github.com/cooperative-computing-lab/cctools/blob/master/work_queue/src/condor_submit_workers
python - Dask 与 HTCondor 调度程序
背景
我有一个带有并行步骤的图像分析管道。管道在python
,并行化由 控制dask.distributed
。最小处理设置有 1 个调度程序 + 3 个工作程序,每个工作程序有 15 个进程。在分析的第一个简短步骤中,我使用 1 个进程/工作者,但节点的所有 RAM 然后在所有其他分析步骤中使用所有节点和进程。
问题
管理员将安装HTCondor
为集群的调度程序。
想法
为了让我的代码在新设置上运行,我计划使用SGE 的 dask 手册中显示的方法,因为集群有一个共享的网络文件系统。
问题和建议
如果我对这种方法的理解正确,我会将调度程序、工作人员和分析作为独立的作业(不同的 HTCondor 提交文件)启动。如何确保执行顺序正确?有没有一种方法可以使用我以前使用的相同处理方法,或者更有效地翻译代码以更好地与 HTCondor 一起使用?谢谢您的帮助!
condor - 如何为 isilon 存储设置用户吞吐量限制
用户可以在 Condor 上运行多个进程并访问 isilon 存储。有些人可能会以牺牲其他人为代价来滥用读取吞吐量。所以假设 isilon 可以处理 10GB/S 的读取速度。如果我有 3 个用户,每个用户有 100 个进程,每个进程都试图读取 1GB/S,那么其余的用户将被严重饿死。存在什么样的解决方案?单主机限制不起作用,因为用户通过 condor 读取。
python - 是否可以在 HTCondor 中检索 python 脚本的输出?
我想运行一些 python 脚本,在 HTCondor 管理的集群上返回一些字典。我在另一个运行 MPI/Slurm 和 mpi4py 的集群上运行相同的程序,我能够在不保存文件的情况下收集输出并将它们传输到主节点。我无法理解如何在 HTCondor 中做到这一点(即使使用 python 包装器)。
是否可以在 HTCondor 中检索 python 脚本的输出?我需要使用schedd.retrieve("ClusterId == %d" % cluster)
命令吗?如果是这样,一个例子将不胜感激。
谢谢!
condor - Condor中的墙时间扩展
我在使用 Condor 提交作业时遇到问题。
我的工作基本上是一个运行 c++ 程序的 shell 脚本。
使用 Condor 提交作业时,我的作业永远无法完成,因为
“作业被用户中止。作业被 SYSTEM_PERIODIC_REMOVE 删除,因为墙时间超过了允许的最大值。” (来自日志文件)从 .out 文件中,我可以清楚地看到我的工作开始做它应该做的事情,但它没有完成。
如何修改此挂墙时间?请注意,这项工作需要不到 1 小时才能完成,所以我不是在寻找特别有表现力的东西。
谢谢大家的帮助干杯马特奥
cluster-computing - HTCondor 拒绝使用退出代码 4/NOPERMISSION 启动它的守护进程
我已经在主节点上成功安装了 HTCondor,这允许提交作业,但是该作业位于队列中。
我按照相同的方法在第一个节点上安装 HTCondor,但没有显示配置向导。如果我更改提供的 condor_config 文件以添加子守护程序列表,则 HTCondor 拒绝开始
condor.service:主进程退出,code=exited,status=4/NOPERMISSION
任何添加 DAEMON_LIST 参数都会阻止集群守护程序启动。
我是 HTCondor 的菜鸟,所以非常感谢任何帮助。
bash - 如何通过 bash 脚本向 condor 提交 wget 作业?
我在将 wget 作业提交给 condor 时遇到问题。我可以使用 wget 通过命令行从 url 下载文件。
但是,如果我将命令保存到 bash 脚本文件“test.sh”,如下所示:
然后提交给 Condor:
它将出现“连接超时”错误。
但是 test.sh 在命令行中运行良好,如下所示:
我将“tesh.sh”更改为:
输出是: