apache-spark - spark-submit 在未连接到 Internet 时失败

Question

当我尝试通过使用参数 --packages 定义的 spark-submit 提交 spark 作业时，我希望 spark 首先在本地 repo 中搜索工件并在它们存在时使用它们。

我观察到每次 spark 尝试从 Internet 获取工件时，如果没有连接就会失败。

我可以强制 spark 只使用本地缓存吗？

例子：

spark-submit --master yarn --deploy-mode cluster --packages org.apache.spark:spark-streaming-kafka-0-10_2.11:2.1.0,org.apache.spark:spark-streaming_2.11:2.1.1,org.apache.spark:spark-sql_2.11:2.1.1 my-assembly-1.1.0.jar /usr/local/path/config.properties

score 0 · Accepted Answer

您可以将所需的包添加到spark-defaults.conf位于$SPARK_HOME/conf. 它将在 local-m2 中查找包。如果包不在 local-m2 中，它将尝试从 maven-central 下载它们。例如

spark.jars.packages   org.vegas-viz:vegas_2.11:0.3.11,org.apache.spark:spark-streaming-kafka-0-10_2.11:2.1.0

apache-spark - spark-submit 在未连接到 Internet 时失败

1 回答 1

Related

Reference