2

我是 HDInsight Spark 的新手,我正在尝试运行一个用例来了解 Azure Spark 群集中的工作原理。这是我到目前为止所做的。

  1. 能够创建天蓝色火花簇。

  2. 按照链接中所述的步骤创建 jar:创建独立的 scala 应用程序以在 HDInsight Spark 群集上运行。我使用了与链接中给出的相同的 scala 代码。

  3. ssh 进入头节点

  4. 使用链接将 jar 上传到 blob 存储:使用 azure CLI 和 azure storage

  5. 将 zip 复制到机器 hadoop fs -copyToLocal

我已经检查了 jar 是否已上传到头节点(机器)。我想运行那个 jar 并获得上面第 2 点给出的链接中所述的结果。下一步会是什么?如何使用命令行界面提交 Spark 作业并获取结果?

4

2 回答 2

2

例如,考虑到您是为程序 submit.jar 创建的 jar。为了将其提交到具有依赖关系的集群,您可以使用以下语法。

spark-submit --master yarn --deploy-mode cluster --packages "com.microsoft.azure:azure-eventhubs-spark_2.11:2.2.5" --class com.ex.abc.MainMethod "wasb://space-hdfs@yourblob.blob.core.windows.net/xx/xx/submit.jar" "param1.json" "param2"

这里 --packages : 是包含对你程序的依赖,你可以使用 --jars 选项,然后是 jar 路径。--jars "path/to/dependency/abc.jar"

--class :程序的主要方法,然后指定程序 jar 的路径。如果需要,您可以传递参数,如上所示

于 2018-10-27T16:23:12.450 回答
0

提交火花罐的几个选项:

1)如果你想已经在头节点上提交作业,你可以使用 spark-submit 查看Apache 提交 jar 文档

2) 一个更简单的替代方法是在将 jar 上传到 wasb 存储后通过 livy 提交 spark jar。请参阅通过 livy doc 提交。如果你这样做,你可以跳过第 5 步。

于 2016-11-04T05:47:16.930 回答