4

当我使用带有 master yarn 和部署模式集群的 spark-submit 提交 spark 作业时,它不会打印/返回任何 applicationId,一旦作业完成,我必须手动检查 MapReduce jobHistory 或 spark HistoryServer 以获取作业详细信息。
我的集群被许多用户使用,在 jobHistory/HistoryServer 中发现我的工作需要花费大量时间。

有没有办法配置spark-submit返回applicationId?

注意:我发现了许多类似的问题,但他们的解决方案使用在驱动程序代码中检索 applicationId,sparkcontext.applicationId并且如果master yarn and deploy-mode cluster驱动程序也作为 mapreduce 作业的一部分运行,则将任何日志或 sysout 打印到远程主机日志。

4

1 回答 1

0

以下是我用来实现此目的的方法:

  1. 将应用程序 ID 保存到 HDFS 文件。(@zhangtong 在评论中建议)。
  2. 从驱动程序发送带有 applicationId 的电子邮件警报。
于 2017-06-01T16:20:07.750 回答