我继承了一个处理云指标的 CondorHT 集群。一个主控制器节点。六个工作节点。集群完美运行了几个月,然后突然中断。集群通常需要 1 到 2 小时才能完成,但现在永远不会完成,并且会在午夜通过每日 cron 关闭而关闭/切断。
主节点上的 CollectorLog 使用指示正在发生某些活动的消息进行更新。消息大约每 20 秒到达一条。
主节点和工作节点上的 ProcLog 大约每 20 秒更新一条消息。“没有任何方法可以确定进程 xxxx 属于受监控的系列……正在拍摄快照……快照已完成。”
主节点上的 condor_status 将所有进程显示为 IDLE。
我该如何调试呢?