问题标签 [spark-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
337 浏览

scala - spark-shell 错误:值生成器不是对象 com.amazonaws.services.s3.model.PutObjectRequest 的成员

我刚刚开始使用 EMR Hadoop/spark 等,我正在尝试使用 spark-shell 运行 scala 代码以将文件上传到 EMRFS S3 位置但是我收到以下错误 -

没有任何导入如果我运行 =>

一旦我为 PutObjectRequest 添加了 Import 包,我仍然会得到一个不同的错误。

导入 com.amazonaws.services.s3.model.PutObjectRequest

我不确定我错过了什么。任何帮助,将不胜感激!

注:Spark 版本为 2.4.5

0 投票
1 回答
138 浏览

cloudera - 我需要哪个“JAR”文件才能在 Scala 中导入“org.apache.parquet”?

当我尝试这个时:

它出错了:

问题- 我需要在 spark conf 中包含哪个 jar 才能使此导入生效?

请注意,这很好用:

我可以访问的 CDH 罐子:

0 投票
1 回答
245 浏览

scala - Spark-shell 退格键在屏幕上打印“$<3>”

我对 scala & Spark 很陌生,当我尝试删除一行代码时,我看到 $<3> 而不是删除所需的行/字符。

在此处输入图像描述

0 投票
0 回答
212 浏览

scala - 错误:未找到:scala 命令字数中的值

我正在尝试按照在线视频教程在 spark 中运行一些 scala 代码:这是一个 wordcount 程序

在此处输入图像描述

每当我运行不以 val 开头的命令时,都会出现相同的错误

0 投票
1 回答
136 浏览

bash - 如何获取 spark-shell 的退出状态<bash脚本中的EOF?

我有一部分shell脚本如下..

火花数据=spark-shell << EOF spark.sql(query) EOF

我需要 spark.sql 查询的退出状态..有人可以帮忙吗..

等待您的回复谢谢

0 投票
1 回答
312 浏览

scala - 如何确定在单个节点上运行 spark 的最佳设置?

我有 55 GB 数据需要处理。我在具有 32 个内核和 180GB RAM(无集群)的单台机器上运行 Spark-shell。由于它是一个单节点——Driver 和 Workers 都驻留在同一个 JVM 进程中,默认使用 514 MB。

我将 spark.driver.memory 设置为 170G

我正在做一个 map 操作,然后是 group_by,然后是 agg 并写入 parquet 文件。它仍然停留在 在此处输入图像描述

无论如何通过更改 spark.executor.memory 或更改使用的核心数而不是使用 Master [*] 来优化性能?如何确定给定任务和数据大小的最佳设置?我应该精确调整 --conf 文件中的哪些值?

简而言之,如何强制 spark 以最好的方式使用所有可用的资源?

0 投票
1 回答
506 浏览

scala - json4s - 重载方法值解析与替代

我有一个使用 json4s 的 Spark 项目。正常提交时运行正常,但我在尝试从 spark shell 解析 JSON 时遇到错误。json4s 自述文件中最简单的示例(在项目中使用这种方式)会引发异常:

奇怪的是,为默认提供显式参数是可行的:

这不会:

我还使用 Ammonite REPL 在没有 Spark 的情况下检查了它:

也许这可能是 Scala 版本的问题(在 Scala 2.11.2 上使用 Spark 2.3 和在 2.12.8 上运行的 Ammonite 示例)?我检查了 3.3.0 和 3.6.10 之间的几个 json4s 版本。

0 投票
1 回答
182 浏览

json - 无法使用 spark 从多行 json 字符串或 JSONL 字符串创建数据帧

我一直在尝试用 jsonl 字符串形成数据框。我能够形成数据框,但问题是只读取单行,忽略其他行。
这是我在 spark-shell 中尝试的东西

有人在这里想念什么吗?

如果有人想知道为什么我不从文件而不是字符串中读取。resources我在路径中有一个 jsonl 配置文件。当我尝试使用getClass.getResourcescala 读取它时,我在getClass.getResourceAsStream工作时出错,我能够读取数据。

0 投票
1 回答
525 浏览

apache-spark - 在 spark-shell Hadoop 3.2.1 和 spark 3.0.0 中发送 RPC XXXX 失败

我正在尝试在具有 8 Gigs ram 的 Windows 10 pc 上以伪分布式模式运行 spark shell。我可以在 yarn 上提交和运行 mapreduce wordcount,但是当我尝试初始化 spark shell 或 spark 提交任何带有 master 作为 yarn 的程序时,它失败并发送 RPC 错误失败。错误如下。

下面是我的 yarn-site.xml 配置

根据我的初步调查,这似乎是由 netty io 库调用 spark network utils 中的 abstractRegion.transfer() 方法引起的,该方法似乎不存在......下面是完整的错误。

互联网上似乎对我的事业没有任何帮助...在此先感谢。

0 投票
1 回答
1120 浏览

apache-spark - spark-shell 的 Apache Hudi 示例为 Spark 2.3.0 引发错误

我正在尝试使用 spark-shell运行此示例( https://hudi.apache.org/docs/quick-start-guide.html )。Apache Hudi 文档说“Hudi 与 Spark-2.x 版本一起工作”环境详细信息是:

平台:HDP 2.6.5.0-292 Spark 版本:2.3.0.2.6.5.279-2 Scala 版本:2.11.8

我正在使用以下 spark-shell 命令(注意 - spark-avro 版本不完全匹配,因为我找不到 Spark 2.3.2 的相应 spark-avro 依赖项)

当我尝试写入数据时,出现以下错误:

对我来说,看起来正确的 avro 版本没有添加到类路径中或被拾取。任何人都可以建议解决方法吗?我被困在这很长一段时间了。