scala - 长时间运行的火花提交作业

Question

我正在尝试使用 spark submit 运行脚本，因为

spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar

此脚本在 60K 记录上实现 DIMSUM 算法。

参考：https ://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

不幸的是，即使在 3 小时后这种情况仍在继续。我厌倦了 1K 数据并在 2 分钟内成功运行。

任何人都可以建议对 spark-submit 参数进行任何更改以使其更快吗？

score 0 · Accepted Answer

您的 spark-submit 声明表明您至少有 80*50=400 个内核，对吗？

这意味着您应该确保至少有 400 个分区，以确保所有核心都在工作（即每个核心至少有 1 个要处理的任务）。

查看您使用的代码，我认为您应该在读取文本文件时指定分区数sc.textFile()，AFAIK 默认为 2（参见defaultMinPartitionsSparkContext.scala）

scala - 长时间运行的火花提交作业

1 回答 1

Related

Reference