hadoop - spark Yarn模式如何从spark-submit获取applicationId

Question

当我使用带有 master yarn 和部署模式集群的 spark-submit 提交 spark 作业时，它不会打印/返回任何 applicationId，一旦作业完成，我必须手动检查 MapReduce jobHistory 或 spark HistoryServer 以获取作业详细信息。
我的集群被许多用户使用，在 jobHistory/HistoryServer 中发现我的工作需要花费大量时间。

有没有办法配置spark-submit返回applicationId？

注意：我发现了许多类似的问题，但他们的解决方案使用在驱动程序代码中检索 applicationId，sparkcontext.applicationId并且如果master yarn and deploy-mode cluster驱动程序也作为 mapreduce 作业的一部分运行，则将任何日志或 sysout 打印到远程主机日志。

score 0 · Accepted Answer

以下是我用来实现此目的的方法：

将应用程序 ID 保存到 HDFS 文件。（@zhangtong 在评论中建议）。
从驱动程序发送带有 applicationId 的电子邮件警报。

hadoop - spark Yarn模式如何从spark-submit获取applicationId

1 回答 1

Related

Reference