“spark-shell”的相关标签问题

0 投票

1 回答

49 浏览

shell - spark 启动 dir 正在工作，但 spark-shell 没有得到 lanuch 出现错误 'spark-shell' 无法识别

cmd screenshot我已按照指示完成了所有操作，但仍然无法启动 spark-shell

目录正在工作

我已按照说明放置了所有下载的文件，但 spark-shell 无法正常工作。

C:\Users\admin>cd c:\spark

c:\spark>dir 驱动器 C 中的卷没有标签。卷序列号是 BCEB-22EE

c:\spark 目录

2019 年 11 月 5 日下午 5 点 19 分。11/05/2019 05:19 PM .. 11/05/2019 04:59 PM 230,091,034 spark-2.4.4-bin-hadoop2.7.tgz 1 File(s) 230,091,034 bytes 2 Dir(s) 180,582,641,664 bytes free

c:\spark>spark-shell 'spark-shell' 不是内部或外部命令、可运行程序或批处理文件。

C:\Users\admin>cd c:\spark

c:\spark>dir 驱动器 C 中的卷没有标签。卷序列号是 BCEB-22EE

c:\spark 目录

2019 年 11 月 5 日下午 5 点 19 分。11/05/2019 05:19 PM .. 11/05/2019 04:59 PM 230,091,034 spark-2.4.4-bin-hadoop2.7.tgz 1 File(s) 230,091,034 bytes 2 Dir(s) 180,582,641,664 bytes free

c:\spark>spark-shell 'spark-shell' 不是内部或外部命令、可运行程序或批处理文件。cmd图片

2019-11-05T16:07:38.777

0 投票

0 回答

133 浏览

apache-spark - 使用 `spark-submit` 在单节点独立 Spark 集群中启动作业

我有一个配置有单个工作人员的单节点火花集群（4 个 cpu 核心和 15GB 内存）。我可以访问 Web UI 并查看工作节点。但是，我无法使用 spark-submit 提交作业。我有几个问题。

我在集群中存储了一个 uber-jar 文件。我使用以下命令提交作业spark-submit --class Main --deploy-mode cluster --master spark://cluster:7077 uber-jar.jar。这会启动作业，但会立即失败并显示以下日志消息。

我做错了什么以及如何正确提交作业。

如果我的 uber-jar 文件在我的本地计算机中，如何正确使用 spark-submit 将使用 uber-jar 文件的 spark 作业从本地计算机提交到集群。我已经尝试在本地计算机上运行 spark-shell，方法是使用spark-shell --master spark:\\cluster:7077. 这会在我的本地计算机中启动一个 spark shell，我可以看到（在 spark Web UI 中）worker 在集群中获得了分配给它的内存。但是，如果我尝试在 shell 中执行任务，我会收到以下错误消息。 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

apache-spark spark-submit apache-spark-standalone spark-shell

2019-11-13T01:45:26.800

0 投票

0 回答

1589 浏览

apache-spark - 如何在使用 Apache Spark 连接到 Presto 时解决 SQL Exception-Unsupported type JAVA_OBJECT？

我对 Apache Spark 非常陌生，并试图从 Apache Spark 连接到 Presto。下面是我的连接字符串，它给出了错误。

我首先在 spark/sbin 中启动了 start-master.sh。我还尝试在 spark-shell 中设置 jar 和驱动程序类路径，如下所示：

仍然出现以下错误：

有人可以帮我吗？谢谢

apache-spark jdbc presto spark-shell

2019-11-27T06:31:37.020

0 投票

2 回答

1385 浏览

scala - 是否可以在不进入 spark-shell 的情况下运行 Spark Scala 脚本？

我知道运行基于 Scala 的 spark 代码的唯一两种方法是将 Scala 程序编译成 jar 文件并使用 spark-submit 运行它，或者通过在 spark-shell 中使用 :load 运行 Scala 脚本。我的问题是，可以直接在命令行上运行 Scala 文件，而无需先进入 spark-shell 然后发出 :load?

scala apache-spark spark-shell

2020-02-21T15:23:06.353

0 投票

1 回答

352 浏览

scala - 由 spark-shell (scala) 暂存的 SparkSession 变量是 val 还是 var？

我正在尝试将我的 Spark Scala 脚本（spark-shell用spark-submit. 我使用 Spark SQL 进行了很多调用，这些调用执行了大量关于时区的时间戳计算。我必须明确设置以下配置（因为每个分布式节点可能配置了不同的默认时区），以确保我的时区始终为 UTC，以便通过该方法中的任何 Spark SQL 函数调用（代码块）进行任何后续 Spark SQL 时间戳操作。

spark.conf.set("spark.sql.session.timeZone", "UTC")

如果该方法签名包含 (spark: org.apache.spark.sql.SparkSession) 作为参数，那么我总是可以从将时区设置为 UTC 的显式代码语句开始，SparkSession而不用冒险（所有分布式 Spark 节点可能有也可能没有完全相同的时区配置）？

我遇到的下一个问题是，我如何确定由设置的“spark”变量spark-shell是 aval还是var？在寻找这个问题的答案时，我找到了这个代码片段，希望找出这个 Scala 变量是immutable还是mutable. 但它没有告诉我 Scala 变量spark是 avar还是 a val。设置为后是否需要返回spark到方法调用者spark.sql.session.timeZone，UTC因为我在我的方法中对其进行了修改？目前我的方法签名需要两个输入参数(org.apache.spark.sql.SparkSession, org.apache.spark.sql.DataFrame)，输出是一个 tuple (org.apache.spark.sql.SparkSession, org.apache.spark.sql.DataFrame)。

额外上下文：作为启动spark-shell的一部分，变量spark初始化如下：

scala apache-spark apache-spark-sql spark-shell

2020-02-24T21:32:12.443

0 投票

1 回答

161 浏览

apache-spark - 为 spark-shell 设置默认包变量

我试图启动 spark-shell，默认情况下具有由环境变量设置的包变量。

正常的执行命令是 spark-shell --packages com.databricks:spark-csv_2.11:1.3.0

我想避免写总是--packages com.databricks:spark-csv_2.11:1.3.0设置一个变量

为了做到这一点，我可以设置哪个变量？

apache-spark spark-shell

2020-02-26T13:34:07.233

0 投票

1 回答

132 浏览

scala - .scala 文件不会在 spark-shell 上运行/产生输出是否有原因？

我正在尝试运行一个打印“Hello World！”的应用程序。该脚本在本地运行良好，但每次我运行它时

输出：

我试过用 spark-shell 启动它

但这也无法产生输出“Hello World”

我也尝试过调用 .Main 。

scala>：加载/u/hdpdlcu/Matt/test/SparkScalaCourse/src/com/sundogsoftware/spark/test1.scala加载/u/hdpdlcu/Matt/test/SparkScalaCourse/src/com/sundogsoftware/spark/test1.scala。 .. 定义对象 test1

scala> /u/hdpdlcu/Matt/test/SparkScalaCourse/src/com/sundogsoftware/spark/test1.Main(Array("a")) :1: error: ';' 预期但“。” 成立。/u/hdpdlcu/Matt/test/SparkScalaCourse/src/com/sundogsoftware/spark/test1.Main(Array("a"))

在定义对象 test1 后，我尝试删除文件路径：

test1.scala：

scala apache-spark spark-shell

2020-03-05T18:47:49.313

0 投票

1 回答

45 浏览