当我使用带有 master yarn 和部署模式集群的 spark-submit 提交 spark 作业时,它不会打印/返回任何 applicationId,一旦作业完成,我必须手动检查 MapReduce jobHistory 或 spark HistoryServer 以获取作业详细信息。
我的集群被许多用户使用,在 jobHistory/HistoryServer 中发现我的工作需要花费大量时间。
有没有办法配置spark-submit
返回applicationId?
注意:我发现了许多类似的问题,但他们的解决方案使用在驱动程序代码中检索 applicationId,sparkcontext.applicationId
并且如果master yarn and deploy-mode cluster
驱动程序也作为 mapreduce 作业的一部分运行,则将任何日志或 sysout 打印到远程主机日志。