apache-spark - 使用主纱线提交 Spark2 时出现错误“必须设置 URL”

Question

我遇到了一个例外，org.apache.spark.SparkException: A master URL must be set in your configuration

我spark2-submit与选项deploy-mode = cluster和master = yarn. 据我了解，以纱线为主，我不应该得到这个例外。

提交脚本

export JAVA_HOME=/usr/java/jdk1.8.0_131/
spark2-submit --class com.example.myapp.ClusterEntry \
    --name "Hello World" \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 1g \
    --executor-memory 1g \
    --executor-cores 3 \
    --packages org.apache.kudu:kudu-spark2_2.11:1.4.0 \
    myapp.jar myconf.file

例外

18/03/14 15:31:47 WARN scheduler.TaskSetManager: Lost task 1.0 in stage 1.0 (TID 3, vm6.adcluster, executor 1): org.apache.spark.SparkException: A master URL must be set in your configuration
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:376)
    at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2509)
    at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:909)
    at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:901)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:901)
    at com.example.myapp.dao.KuduSink.open(KuduSink.scala:18)
    at org.apache.spark.sql.execution.streaming.ForeachSink$$anonfun$addBatch$1.apply(ForeachSink.scala:50)
    at org.apache.spark.sql.execution.streaming.ForeachSink$$anonfun$addBatch$1.apply(ForeachSink.scala:49)
    at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1$$anonfun$apply$29.apply(RDD.scala:926)
    at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1$$anonfun$apply$29.apply(RDD.scala:926)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2062)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2062)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
    at org.apache.spark.scheduler.Task.run(Task.scala:108)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:335)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:748)

集群是运行 Spark 2.2 的 Cloudera 集群我注意到应用程序的 KuduSink 是异常消息的一部分，也许主 URL 错误来自 KuduContext？但是，在本地为开发人员运行此应用程序时，我没有收到此类错误。

score 0 · Accepted Answer

你是对的，YARN 上的 Spark 不需要主 URL。

确保 SPARK_HOME、YARN_HOME 和 HADOOP_HOME 配置正确。

希望你是同一个集群中的两个不同版本的 spark。默认情况下，CDH 包裹随附 spark 1.6。假设您已经通过自定义服务描述符安装了 spark2 并正确配置了服务。

确保 spark-submit(spark 1) 和 spark2-submit(spark 2) 的配置没有重叠。

确保为 spark2 服务部署客户端配置。

apache-spark - 使用主纱线提交 Spark2 时出现错误“必须设置 URL”

提交脚本

例外

1 回答 1

Related

Reference