0

我正在开发一个基于 Web 的工具(名为 cloudcopasi),它从用户那里获取工作并将其提交给 bosco 资源(计算节点)。我在 Linux CentOS 7 上使用 bosco 版本(condor 8.8.12)。Web 界面允许用户添加一个 bosco 池,用户可以使用该池提交作业。但是,当我尝试提交作业时,它失败了。我也尝试使用以下命令测试池:

bosco_cluster --test

它给了我以下 GAHP 错误:

…..
Testing bosco submission...Passed!
Submission and log files for this job are in /home/cloudcopasi/bosco/local.bosco/bosco-test/boscotest.LTA07r
Waiting for jobmanager to accept job...Passed
Checking for submission to remote slurm cluster (could take ~30 seconds)...Failed
Showing last 5 lines of logs:
01/06/21 13:34:03 [3800] Gahp Server (pid=3815) exited with status 1 unexpectedly
01/06/21 13:34:08 [3800] gahp server not up yet, delaying ping
01/06/21 13:34:08 [3800] No jobs left, shutting down
01/06/21 13:34:08 [3800] Got SIGTERM. Performing graceful shutdown.
01/06/21 13:34:08 [3800] **** condor_gridmanager (condor_GRIDMANAGER) pid 3800 EXITING WITH STATUS 0

我不确定我错过了什么,但我不明白如何解决这个“Gahp 服务器”问题。

非常感谢任何帮助。

谢谢你。

4

1 回答 1

0

这可能是 ssh 故障(网络、身份验证或授权)。Bosco 运行以下命令访问远程集群提交主机:

<sbin>/remote_gahp <user>@<hostname> batch_gahp

您可以在命令行上运行它以获取有关问题所在的更多详细信息。remote_gahp 是一个 bash 脚本,因此您可以在必要时进一步挖掘。

于 2021-01-07T19:18:57.107 回答