问题标签 [spark-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1861 浏览

apache-spark - 无法启动 Spark-shell

您好,我已经解压缩并导出了 spark 路径。当我吃午饭时,我得到了这个错误。

$火花壳

错误

我有什么问题。

0 投票
1 回答
834 浏览

java - spark-shell - 无法访问 jar 中的 java 函数

两天前我已经开始探索火花。所以我对它很陌生。我的用例是在我用 spark-shell 编写的 scala 代码中访问外部 jar 中存在的 java 函数。但我认为我没有正确加载我的罐子。这是我正在做的

这就是我启动我的 spark-shell 并传递所有必需的 jar 的方式。每当我试图调用java静态函数时:

我收到错误消息:

我想知道我的理解是否正确。我们可以通过加载外部 jar 在 spark 中使用 java 函数吗?如果是,那么我在这里做错了什么。请指导。

0 投票
1 回答
113 浏览

scala - Spark Shell 允许重新声明相同的不可变变量

我正在为 Scala 使用 Spark-shell 并在 Spark-shell REPL 中发现了一个奇怪的行为,如果我使用任何 IDE 则不存在。

我可以在 REPL 中一次又一次地声明相同的不可变变量,但在 IDE 中不允许这样做。

这是 REPL 中的代码:

这是我在 Eclipse IDE 中尝试的同样的事情,它显示编译时错误:

在此处输入图像描述

我有什么遗漏 Spark-shell REPL 的配置吗?

或者这是预期的行为?

0 投票
1 回答
864 浏览

scala - sparksession文本和文本文件方法之间的区别?

我正在使用 Spark scala shell 并尝试从文本文件创建数据框和数据集。

要从文本文件中获取数据集,有两个选项,text 和 textFile 方法,如下所示:

以下是我如何从这两种方法中获取数据集和数据框:

所以我的问题是文本文件的两种方法有什么区别?

什么时候使用哪些方法?

0 投票
1 回答
71 浏览

apache-spark - spark-shell中reduce函数的内部结构

输入文件包含 20 行。我正在尝试使用 reduce 函数计算记录总数。谁能解释一下为什么结果会有所不同?因为这里 y 的值只不过是 1。

默认分区数:4

0 投票
1 回答
1043 浏览

scala - 在 spark scala 作业期间内存不足异常或工作节点丢失

我正在使用 spark-shell 执行 spark-scala 作业,我面临的问题是,在最后阶段和最终映射器结束时,就像在第 5 阶段一样,它分配 50 并很快完成 49,在第 50 阶段需要 5 分钟并说内存不足并失败。我在用SPARK_MAJOR_VERSION=2

我正在使用以下命令 spark-shell --master yarn --conf spark.driver.memory=30G --conf spark.executor.memory=40G --conf spark.shuffle.service.enabled=true --conf spark.dynamicAllocation.enabled=false --conf spark.sql.broadcastTimeout=36000 --conf spark.shuffle.compress=true --conf spark.executor.heartbeatInterval=3600s --conf spark.executor.instance=160

在上面的配置中,我尝试了将动态分配为 true 并从 1GB 启动驱动程序和执行程序内存。我有 6.78TB 的整体内存和 1300 个 VCore(这是我的整个 hadoop 硬件)。

我正在阅读的表格是40GB,我将 6 个表格加入到那个 40GB 的表格中,所以总体上可能是 60GB。所以spark为此初始化了4个阶段,在最后的最后阶段它失败了。我正在使用 spark sql 执行 SQL。

以下是错误:

谁能让我知道我在这里做错了什么,比如内存分配或其他什么?请提出任何替代方案来完成这项工作,而不会出现我们的内存异常或工作节点丢失错误。非常感谢任何帮助或信息。

谢谢!

0 投票
1 回答
16201 浏览

scala - 将字符串格式的科学记数法转换为 Spark 数据框中的数字

我正在尝试将value列转换为177920904

还尝试将值转换为Float, Double。始终将 null 作为输出


0 投票
1 回答
1598 浏览

scala - 从 sbt 运行 spark-shell

获取 spark shell 的默认方式似乎是从网站下载发行版。然而, 这个 spark issue提到它可以通过sbt. 我找不到这方面的文档。在使用spark-sqland的 sbt 项目中spark-core,没有spark-shell找到二进制文件。

你如何spark-shell从 sbt 运行?

0 投票
1 回答
609 浏览

apache-spark - 为什么 Spark shell(PySpark 或 Scala)在客户端模式而不是集群模式下运行?

我一直了解 Spark shell,无论是 PySpark 还是 Scala,都在客户端模式下运行。如果我错了,请纠正我,没有开箱即用的配置可以在集群模式下使用它们。

为什么会这样?是什么让集群模式不适合这些交互式 shell?

客户端和驱动程序之间的网络延迟可能是一个因素。如果使用 YARN,初始启动时间可能会更长,因为驱动程序的集群资源需要从 YARN 资源管理器中提供。但在我看来,这两个因素并不是严重的阻碍因素。

编辑
问题Spark-submit / spark-shell > yarn-client 和 yarn-cluster 模式之间的区别是相关的,但不关注(并且答案不包括)为什么 shell 不能在集群模式下运行。

0 投票
2 回答
359 浏览

apache-spark - 从 Ignite Cache 读取时执行 Cassandra CQL 语句失败

我正在尝试将 ignite 与 cassandra 集成。我设置了配置并启动了 ignite 节点。但我无法从 Ignite 缓存/cassandra db 中插入/读取数据。我在 cassandra 中创建了 Keyspace 和 table。并插入了一些值。但是当试图读取 values 时,就会出现异常。当我尝试插入一些值时,同样的事情发生了。

我的 Ignite 版本是 2.6 和 cqlsh 5.0.1 | 卡桑德拉 3.11.4 | CQL 规范 3.4.4 | 火花版本是 2.3.0 | scala 版本是 2.11.8 | cassandra 驱动核心 3.0.0 | 番石榴19.0 |

这是点燃配置。

配置3.xml

连接-settings3.xml

持久性设置-3.xml

我得到的错误信息是,

使用以下命令启动 spark-shell Am