问题标签 [spark-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
49 浏览

shell - spark 启动 dir 正在工作,但 spark-shell 没有得到 lanuch 出现错误 'spark-shell' 无法识别

cmd screenshot我已按照指示完成了所有操作,但仍然无法启动 spark-shell

目录正在工作

我已按照说明放置了所有下载的文件,但 spark-shell 无法正常工作。

C:\Users\admin>cd c:\spark

c:\spark>dir 驱动器 C 中的卷没有标签。卷序列号是 BCEB-22EE

c:\spark 目录

2019 年 11 月 5 日下午 5 点 19 分。11/05/2019 05:19 PM .. 11/05/2019 04:59 PM 230,091,034 spark-2.4.4-bin-hadoop2.7.tgz 1 File(s) 230,091,034 bytes 2 Dir(s) 180,582,641,664 bytes free

c:\spark>spark-shell 'spark-shell' 不是内部或外部命令、可运行程序或批处理文件。

C:\Users\admin>cd c:\spark

c:\spark>dir 驱动器 C 中的卷没有标签。卷序列号是 BCEB-22EE

c:\spark 目录

2019 年 11 月 5 日下午 5 点 19 分。11/05/2019 05:19 PM .. 11/05/2019 04:59 PM 230,091,034 spark-2.4.4-bin-hadoop2.7.tgz 1 File(s) 230,091,034 bytes 2 Dir(s) 180,582,641,664 bytes free

c:\spark>spark-shell 'spark-shell' 不是内部或外部命令、可运行程序或批处理文件。cmd图片

0 投票
0 回答
133 浏览

apache-spark - 使用 `spark-submit` 在单节点独立 Spark 集群中启动作业

我有一个配置有单个工作人员的单节点火花集群(4 个 cpu 核心和 15GB 内存)。我可以访问 Web UI 并查看工作节点。但是,我无法使用 spark-submit 提交作业。我有几个问题。

  1. 我在集群中存储了一个 uber-jar 文件。我使用以下命令提交作业spark-submit --class Main --deploy-mode cluster --master spark://cluster:7077 uber-jar.jar。这会启动作业,但会立即失败并显示以下日志消息。

我做错了什么以及如何正确提交作业。

  1. 如果我的 uber-jar 文件在我的本地计算机中,如何正确使用 spark-submit 将使用 uber-jar 文件的 spark 作业从本地计算机提交到集群。我已经尝试在本地计算机上运行 spark-shell,方法是使用spark-shell --master spark:\\cluster:7077. 这会在我的本地计算机中启动一个 spark shell,我可以看到(在 spark Web UI 中)worker 在集群中获得了分配给它的内存。但是,如果我尝试在 shell 中执行任务,我会收到以下错误消息。 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
0 投票
0 回答
1589 浏览

apache-spark - 如何在使用 Apache Spark 连接到 Presto 时解决 SQL Exception-Unsupported type JAVA_OBJECT?

我对 Apache Spark 非常陌生,并试图从 Apache Spark 连接到 Presto。下面是我的连接字符串,它给出了错误。

我首先在 spark/sbin 中启动了 start-master.sh。我还尝试在 spark-shell 中设置 jar 和驱动程序类路径,如下所示:

仍然出现以下错误:

有人可以帮我吗?谢谢

0 投票
2 回答
1385 浏览

scala - 是否可以在不进入 spark-shell 的情况下运行 Spark Scala 脚本?

我知道运行基于 Scala 的 spark 代码的唯一两种方法是将 Scala 程序编译成 jar 文件并使用 spark-submit 运行它,或者通过在 spark-shell 中使用 :load 运行 Scala 脚本。我的问题是,可以直接在命令行上运行 Scala 文件,而无需先进入 spark-shell 然后发出 :load?

0 投票
1 回答
352 浏览

scala - 由 spark-shell (scala) 暂存的 SparkSession 变量是 val 还是 var?

我正在尝试将我的 Spark Scala 脚本(spark-shellspark-submit. 我使用 Spark SQL 进行了很多调用,这些调用执行了大量关于时区的时间戳计算。我必须明确设置以下配置(因为每个分布式节点可能配置了不同的默认时区),以确保我的时区始终为 UTC,以便通过该方法中的任何 Spark SQL 函数调用(代码块)进行任何后续 Spark SQL 时间戳操作。

spark.conf.set("spark.sql.session.timeZone", "UTC")

如果该方法签名包含 (spark: org.apache.spark.sql.SparkSession) 作为参数,那么我总是可以从将时区设置为 UTC 的显式代码语句开始,SparkSession而不用冒险(所有分布式 Spark 节点可能有也可能没有完全相同的时区配置)?

我遇到的下一个问题是,我如何确定由 设置的“spark”变量spark-shell是 aval还是var?在寻找这个问题的答案时,我找到了这个代码片段,希望找出这个 Scala 变量是immutable还是mutable. 但它没有告诉我 Scala 变量spark是 avar还是 a val。设置为后是否需要返回spark到方法调用者spark.sql.session.timeZoneUTC因为我在我的方法中对其进行了修改?目前我的方法签名需要两个输入参数(org.apache.spark.sql.SparkSession, org.apache.spark.sql.DataFrame),输出是一个 tuple (org.apache.spark.sql.SparkSession, org.apache.spark.sql.DataFrame)

额外上下文:作为启动spark-shell的一部分,变量spark初始化如下:

0 投票
1 回答
161 浏览

apache-spark - 为 spark-shell 设置默认包变量

我试图启动 spark-shell,默认情况下具有由环境变量设置的包变量。

正常的执行命令是 spark-shell --packages com.databricks:spark-csv_2.11:1.3.0

我想避免写总是--packages com.databricks:spark-csv_2.11:1.3.0设置一个变量

为了做到这一点,我可以设置哪个变量?

0 投票
1 回答
132 浏览

scala - .scala 文件不会在 spark-shell 上运行/产生输出是否有原因?

我正在尝试运行一个打印“Hello World!”的应用程序。该脚本在本地运行良好,但每次我运行它时

输出:

我试过用 spark-shell 启动它

但这也无法产生输出“Hello World”

我也尝试过调用 .Main 。

scala>:加载/u/hdpdlcu/Matt/test/SparkScalaCourse/src/com/sundogsoftware/spark/test1.scala加载/u/hdpdlcu/Matt/test/SparkScalaCourse/src/com/sundogsoftware/spark/test1.scala。 .. 定义对象 test1

scala> /u/hdpdlcu/Matt/test/SparkScalaCourse/src/com/sundogsoftware/spark/test1.Main(Array("a")) :1: error: ';' 预期但“。” 成立。/u/hdpdlcu/Matt/test/SparkScalaCourse/src/com/sundogsoftware/spark/test1.Main(Array("a"))

在定义对象 test1 后,我尝试删除文件路径:

test1.scala:

0 投票
1 回答
45 浏览

apache-spark - 如何使用 Spark-shell 一次性从表的所有列中过滤掉所有空值?

我正在使用Spark shell 1.6。我想执行检查以将包含空值的所有行与不包含空值的行分开。更准确地说,我必须将它们分成 2 个不同的表(数据和错误)。问题是我有太多的列(42),所以一次检查一个是不可能的。可能有帮助的几点:

  1. 数据架构包含 bigint、int、String 和日期格式。
  2. 使用的表都是 hive 表。
  3. 我也有数据的 CSV(但必须使用 spark shell)。
0 投票
1 回答
428 浏览

apache-spark - 如何使用 spark 读取 hive 托管表数据?

我可以使用 spark-shell 读取配置单元外部表,但是当我尝试从配置单元管理表中读取数据时,它只显示列名。

请在此处查找查询: 蜂巢查询 火花查询

0 投票
0 回答
418 浏览

windows - 使用纱线客户端运行 spark-shell 时出现问题,错误客户端。传输客户端:无法发送 RPC

我正在尝试在 windows 中使用 spark 设置 hadoop 3.1.2。我已经启动了 hdfs 集群,并且能够在 hdfs 中创建、复制文件。当我尝试用纱线启动火花壳时,我正面临着

当用纱线日志检查时

我什至在 spark conf 中添加了以下属性

这些在纱线站点

我的集群是单节点集群。具有 16GB 内存和 500GB 硬盘的 Windows 操作系统。以下是我的 hdfs 报告

我已经在这里待了2天了。将不胜感激帮助。

提前致谢。