0

我正在尝试使用 spark submit 运行脚本,因为

spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar

此脚本在 60K 记录上实现 DIMSUM 算法。

参考:https ://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

不幸的是,即使在 3 小时后这种情况仍在继续。我厌倦了 1K 数据并在 2 分钟内成功运行。

任何人都可以建议对 spark-submit 参数进行任何更改以使其更快吗?

4

1 回答 1

0

您的 spark-submit 声明表明您至少有 80*50=400 个内核,对吗?

这意味着您应该确保至少有 400 个分区,以确保所有核心都在工作(即每个核心至少有 1 个要处理的任务)。

查看您使用的代码,我认为您应该在读取文本文件时指定分区数sc.textFile(),AFAIK 默认为 2(参见defaultMinPartitionsSparkContext.scala)

于 2017-02-02T12:44:49.193 回答