azure - 如何通过命令行界面将作业（jar）提交到 Azure Spark 集群？

Question

我是 HDInsight Spark 的新手，我正在尝试运行一个用例来了解 Azure Spark 群集中的工作原理。这是我到目前为止所做的。

能够创建天蓝色火花簇。
按照链接中所述的步骤创建 jar：创建独立的 scala 应用程序以在 HDInsight Spark 群集上运行。我使用了与链接中给出的相同的 scala 代码。
ssh 进入头节点
使用链接将 jar 上传到 blob 存储：使用 azure CLI 和 azure storage
将 zip 复制到机器 hadoop fs -copyToLocal

我已经检查了 jar 是否已上传到头节点（机器）。我想运行那个 jar 并获得上面第 2 点给出的链接中所述的结果。下一步会是什么？如何使用命令行界面提交 Spark 作业并获取结果？

score 2 · Accepted Answer

例如，考虑到您是为程序 submit.jar 创建的 jar。为了将其提交到具有依赖关系的集群，您可以使用以下语法。

spark-submit --master yarn --deploy-mode cluster --packages "com.microsoft.azure:azure-eventhubs-spark_2.11:2.2.5" --class com.ex.abc.MainMethod "wasb://space-hdfs@yourblob.blob.core.windows.net/xx/xx/submit.jar" "param1.json" "param2"

这里 --packages : 是包含对你程序的依赖，你可以使用 --jars 选项，然后是 jar 路径。--jars "path/to/dependency/abc.jar"

--class ：程序的主要方法，然后指定程序 jar 的路径。如果需要，您可以传递参数，如上所示

score 0 · Accepted Answer

提交火花罐的几个选项：

1）如果你想已经在头节点上提交作业，你可以使用 spark-submit 查看Apache 提交 jar 文档

2) 一个更简单的替代方法是在将 jar 上传到 wasb 存储后通过 livy 提交 spark jar。请参阅通过 livy doc 提交。如果你这样做，你可以跳过第 5 步。

azure - 如何通过命令行界面将作业（jar）提交到 Azure Spark 集群？

2 回答 2

Related

Reference