0

我继承了一个处理云指标的 CondorHT 集群。一个主控制器节点。六个工作节点。集群完美运行了几个月,然后突然中断。集群通常需要 1 到 2 小时才能完成,但现在永远不会完成,并且会在午夜通过每日 cron 关闭而关闭/切断。

主节点上的 CollectorLog 使用指示正在发生某些活动的消息进行更新。消息大约每 20 秒到达一条。

主节点和工作节点上的 ProcLog 大约每 20 秒更新一条消息。“没有任何方法可以确定进程 xxxx 属于受监控的系列……正在拍摄快照……快照已完成。”

主节点上的 condor_status 将所有进程显示为 IDLE。

我该如何调试呢?

4

1 回答 1

0

Hmm. The way HTCondor works is that it schedules job on machines. Sounds like the jobs are idle. Or, maybe there aren't any jobs. So, let's start there. If you run condor_q, or maybe condor_q -all, depending on the version of condor, what does that say about the jobs?

于 2020-03-24T01:12:18.940 回答