我继承了一个使用 knox 的集群,并试图弄清楚为什么 Spark 历史服务器可用于已完成的 Spark 作业,但 Spark UI 不可用于正在进行的 Spark 应用程序。
在这个纱线 UI(通过 Knox 公开)中,有 5 个已完成的纱线应用程序和 1 个正在进行的纱线应用程序。都是火花应用:
在 Tracking UI 列中,可用的链接是:
- https://my-knox-endpoint/gateway/my-cluster/yarn/proxy/application_1580137635209_0001
- https://my-knox-endpoint/gateway/my-cluster/yarn/proxy/application_1580137635209_0002
- https://my-knox-endpoint/gateway/my-cluster/yarn/proxy/application_1580137635209_0003
- https://my-knox-endpoint/gateway/my-cluster/yarn/proxy/application_1580137635209_0004
- https://my-knox-endpoint/gateway/my-cluster/yarn/proxy/application_1580137635209_0005
- https://my-knox-endpoint/gateway/my-cluster/yarn/proxy/application_1580137635209_0006
与已完成作业有关的五个链接都成功地为这些作业打开了 Spark History 服务器 UI。如果我发出问题cat ${GATEWAY_HOME}/logs/gateway-audit.log
,当我点击这五个链接中的任何一个时,我会看到以下内容:
20/01/27 15:50:55 ||55bef3f3-a52f-4790-97d0-bd6e5076a293|审计|109.231.200.210, 165.225.80.109, 34.102.220.138, 130.211.0.229|YARNURI||| gateway/my-cluster-name/yarn/proxy/application_1580137635209_0001|不可用|请求方法:GET
20/01/27 15:50:55 ||55bef3f3-a52f-4790-97d0-bd6e5076a293|audit|109.231.200.210, 165.2 80.109、34.102.220.138、130.211.0.229|YARNUI||||调度|uri| http://my-cluster-name-m:8088/proxy/application_1580137635209_0001|unavailable|请求方法:GET
20/01/27 15:50:55 ||55bef3f3-a52f-4790-97d0-bd6e5076a293|audit|109.231。 200.210、165.225.80.109、34.102.220.138、130.211.0.229|YARNUI||||调度|uri| http://my-cluster-name-m:8088/proxy/application_1580137635209_0001|success|响应状态:302
20/01/27 15:50:55 |||审计|109.231.200.210, 165.225.80.109, 34.102.220.138, 130.211.0.229|YARNUI||||access|uri|/gateway/my-cluster-name/yarn /proxy/application_1580137635209_0001 |成功|响应状态:302
20/01/27 15:50:55 || F7617E15-3BF4-3BF4-4A8C-9701-978585894D784D784 | |SPARKHISTORYUI||||access|uri|/gateway/my-cluster-name/sparkhistory/history/application_1580137635209_0001/1|不可用|请求方法:GET 20/01/27 15:50:55 ||f7617e15-3bf4-4a8c -9701-9785894d7884|审计|109.231.200.210, 165.225.80.109, 34.102.220.138, 130.211.0.234|SPARKHISTORYUI||||调度|uri| http://my-cluster-name-m:18080/history/application_1580137635209_0001/1/|不可用|请求方法:GET
27 年 1 月 20 日 15:50:55 ||f7617e15-3bf4-4a8c-9701-9785894d7884|审计|109.231.200.210, 165.225.80.109, 34.102.220.138, 130.211.0.234|SPARKuri|SPARKURI|STORYUI||| http://my-cluster-name-m:18080/history/application_1580137635209_0001/1/|success|响应状态:30
以及 Spark History UI 资源的大量其他日志记录。都好。注意 302 记录(重定向)
但是,如果我点击正在进行的应用程序的链接,我将被发送到集群主节点http://my-cluster-name-m:18080/history/application_1580137635209_0006/1,并显示以下内容:
在我看到的日志中:
27 年 1 月 20 日 15:58:38 ||aec261d3-7ecc-43a7-8815-d7185ee13833|审计|109.231.200.210、165.225.80.109、34.102.220.138、130.211.1.130|/|YARNUI||| gateway/my-cluster-name/yarn/proxy/application_1580137635209_0006|不可用|请求方法:GET
20/01/27 15:58:38 ||aec261d3-7ecc-43a7-8815-d7185ee13833|audit|109.231.200.210, 165.25。 80.109、34.102.220.138、130.211.1.130|YARNUI||||调度|uri| http://my-cluster-name-m:8088/proxy/application_1580137635209_0006|unavailable|请求方法:GET
20/01/27 15:58:38 ||aec261d3-7ecc-43a7-8815-d7185ee13833|audit|109.231。 200.210、165.225.80.109、34.102.220.138、130.211.1.130|YARNUI||||调度|uri| http://my-cluster-name-m:8088/proxy/application_1580137635209_0006|success|响应状态:200
20/01/27 15:58:38 |||审计|109.231.200.210, 165.225.80.109, 34.102.220.138, 130.211.1.130|YARNUI||||access|uri|/gateway/my-cluster-name/yarn /proxy/application_1580137635209_0006|成功|响应状态:200
请注意,那里没有 302 条记录。
编辑:自从最初发布这篇文章以来,我注意到如果我在应用程序启动后立即单击 Tracking UI 链接,那么我会看到纱线应用程序的详细信息:
几秒钟后,单击同一链接会将我带到如上所示的错误。
在这一点上,我有点迷失了。谁能帮助解释为什么我无法查看正在进行的应用程序的 Spark UI?欢迎任何关于我如何诊断的指示。