4

我知道运行基于 Scala 的 spark 代码的唯一两种方法是将 Scala 程序编译成 jar 文件并使用 spark-submit 运行它,或者通过在 spark-shell 中使用 :load 运行 Scala 脚本。我的问题是,可以直接在命令行上运行 Scala 文件,而无需先进入 spark-shell 然后发出 :load?

4

2 回答 2

3

您可以简单地使用标准输入重定向spark-shell

spark-shell < YourSparkCode.scala

这个命令启动一个 spark-shell,YourSparkCode.scala逐行解释你的代码并在最后退出。

另一种选择是使用命令-I <file>选项spark-shell

spark-shell -I YourSparkCode.scala

唯一的区别是后一个命令将您留在 shell 中,您必须发出:quit命令来关闭会话。

[UDP] 传递参数

由于spark-shell不会将您的源代码作为应用程序执行,而只是逐行解释您的源文件,因此您不能将任何参数直接作为应用程序参数传递。

幸运的是,可能有很多选项可以达到相同的效果(例如,将参数外部化到另一个文件中并在脚本的最开始读取它)。

但我个人认为 Spark 配置是最干净、最方便的方式。

您通过--conf选项传递参数:

spark-shell --conf spark.myscript.arg1=val1 --conf spark.yourspace.arg2=val2 < YourSparkCode.scala

(请注意,spark.您的属性名称中的前缀是强制性的,否则 Spark 会将您的属性视为无效而丢弃)

并在您的 Spark 代码中读取这些参数,如下所示:

val arg1: String = spark.conf.get("spark.myscript.arg1")
val arg2: String = spark.conf.get("spark.myscript.arg2")
于 2020-02-21T17:10:34.757 回答
0

可以通过 spark-submit 实现。

https://spark.apache.org/docs/latest/submitting-applications.html

你甚至可以把它放到 bash 脚本中或者创建 sbt-task https://www.scala-sbt.org/1.x/docs/Tasks.html 来运行你的代码。

于 2020-02-21T15:32:16.677 回答