问题标签 [spark-shell]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

119 问题

0 投票

1 回答

1861 浏览

apache-spark - 无法启动 Spark-shell

您好，我已经解压缩并导出了 spark 路径。当我吃午饭时，我得到了这个错误。

$火花壳

错误

我有什么问题。

2019-03-22T16:42:03.220

0 投票

1 回答

834 浏览

java - spark-shell - 无法访问 jar 中的 java 函数

两天前我已经开始探索火花。所以我对它很陌生。我的用例是在我用 spark-shell 编写的 scala 代码中访问外部 jar 中存在的 java 函数。但我认为我没有正确加载我的罐子。这是我正在做的

这就是我启动我的 spark-shell 并传递所有必需的 jar 的方式。每当我试图调用java静态函数时：

我收到错误消息：

我想知道我的理解是否正确。我们可以通过加载外部 jar 在 spark 中使用 java 函数吗？如果是，那么我在这里做错了什么。请指导。

java scala apache-spark jar spark-shell

2019-03-25T06:45:10.497

0 投票

1 回答

113 浏览

scala - Spark Shell 允许重新声明相同的不可变变量

我正在为 Scala 使用 Spark-shell 并在 Spark-shell REPL 中发现了一个奇怪的行为，如果我使用任何 IDE 则不存在。

我可以在 REPL 中一次又一次地声明相同的不可变变量，但在 IDE 中不允许这样做。

这是 REPL 中的代码：

这是我在 Eclipse IDE 中尝试的同样的事情，它显示编译时错误：

我有什么遗漏 Spark-shell REPL 的配置吗？

或者这是预期的行为？

scala apache-spark variables immutability spark-shell

2019-03-28T09:40:48.323

0 投票

1 回答

864 浏览

scala - sparksession文本和文本文件方法之间的区别？

我正在使用 Spark scala shell 并尝试从文本文件创建数据框和数据集。

要从文本文件中获取数据集，有两个选项，text 和 textFile 方法，如下所示：

以下是我如何从这两种方法中获取数据集和数据框：

所以我的问题是文本文件的两种方法有什么区别？

什么时候使用哪些方法？

scala apache-spark dataframe dataset spark-shell

2019-03-28T11:58:46.650

0 投票

1 回答

71 浏览

apache-spark - spark-shell中reduce函数的内部结构

输入文件包含 20 行。我正在尝试使用 reduce 函数计算记录总数。谁能解释一下为什么结果会有所不同？因为这里 y 的值只不过是 1。

默认分区数：4

apache-spark spark-shell

2019-04-21T11:07:50.410

0 投票

1 回答

1043 浏览

scala - 在 spark scala 作业期间内存不足异常或工作节点丢失

我正在使用 spark-shell 执行 spark-scala 作业，我面临的问题是，在最后阶段和最终映射器结束时，就像在第 5 阶段一样，它分配 50 并很快完成 49，在第 50 阶段需要 5 分钟并说内存不足并失败。我在用SPARK_MAJOR_VERSION=2

我正在使用以下命令 spark-shell --master yarn --conf spark.driver.memory=30G --conf spark.executor.memory=40G --conf spark.shuffle.service.enabled=true --conf spark.dynamicAllocation.enabled=false --conf spark.sql.broadcastTimeout=36000 --conf spark.shuffle.compress=true --conf spark.executor.heartbeatInterval=3600s --conf spark.executor.instance=160

在上面的配置中，我尝试了将动态分配为 true 并从 1GB 启动驱动程序和执行程序内存。我有 6.78TB 的整体内存和 1300 个 VCore（这是我的整个 hadoop 硬件）。

我正在阅读的表格是40GB，我将 6 个表格加入到那个 40GB 的表格中，所以总体上可能是 60GB。所以spark为此初始化了4个阶段，在最后的最后阶段它失败了。我正在使用 spark sql 执行 SQL。

以下是错误：

谁能让我知道我在这里做错了什么，比如内存分配或其他什么？请提出任何替代方案来完成这项工作，而不会出现我们的内存异常或工作节点丢失错误。非常感谢任何帮助或信息。

谢谢！

scala apache-spark hadoop hive spark-shell

2019-04-26T19:38:38.813

0 投票

1 回答

16201 浏览

scala - 将字符串格式的科学记数法转换为 Spark 数据框中的数字

我正在尝试将value列转换为177920904

还尝试将值转换为Float, Double。始终将 null 作为输出

scala apache-spark dataframe apache-spark-sql spark-shell

2019-04-30T05:58:13.920

0 投票

1 回答

1598 浏览

scala - 从 sbt 运行 spark-shell

获取 spark shell 的默认方式似乎是从网站下载发行版。然而，这个 spark issue提到它可以通过sbt. 我找不到这方面的文档。在使用spark-sqland的 sbt 项目中spark-core，没有spark-shell找到二进制文件。

你如何spark-shell从 sbt 运行？

scala apache-spark sbt spark-shell

2019-06-24T09:05:07.020

0 投票

1 回答

609 浏览

apache-spark - 为什么 Spark shell（PySpark 或 Scala）在客户端模式而不是集群模式下运行？

我一直了解 Spark shell，无论是 PySpark 还是 Scala，都在客户端模式下运行。如果我错了，请纠正我，没有开箱即用的配置可以在集群模式下使用它们。

为什么会这样？是什么让集群模式不适合这些交互式 shell？

客户端和驱动程序之间的网络延迟可能是一个因素。如果使用 YARN，初始启动时间可能会更长，因为驱动程序的集群资源需要从 YARN 资源管理器中提供。但在我看来，这两个因素并不是严重的阻碍因素。

编辑
问题Spark-submit / spark-shell > yarn-client 和 yarn-cluster 模式之间的区别是相关的，但不关注（并且答案不包括）为什么 shell 不能在集群模式下运行。

apache-spark hadoop pyspark hadoop-yarn spark-shell

2019-07-05T07:42:21.243

0 投票

2 回答

359 浏览

apache-spark - 从 Ignite Cache 读取时执行 Cassandra CQL 语句失败

我正在尝试将 ignite 与 cassandra 集成。我设置了配置并启动了 ignite 节点。但我无法从 Ignite 缓存/cassandra db 中插入/读取数据。我在 cassandra 中创建了 Keyspace 和 table。并插入了一些值。但是当试图读取 values 时，就会出现异常。当我尝试插入一些值时，同样的事情发生了。

这是点燃配置。

配置3.xml

连接-settings3.xml

持久性设置-3.xml

我得到的错误信息是，

使用以下命令启动 spark-shell Am

apache-spark jar cassandra ignite spark-shell

2019-07-08T10:53:26.303

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-shell]

Reference