问题标签 [spark-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2176 浏览

windows - 在 Windows 上的 Git Bash 中设置 Spark-shell

我的系统上的任何其他软件都没有遇到过这个问题。能够在窗口终端/命令提示符和 Git-Bash 中安装和运行所有内容

最近,我开始学习 Spark。安装 Spark 设置所有 JAVA_HOME、SCALA_HOME、hadoop winutils 文件。Spark-shell 和 pyspark-shell 都在命令提示符/窗口终端和 Jupyter 中通过 pyspark lib 完美运行。

但我无法为 Git Bash 弄清楚它(尝试使用管理员权限)。当我尝试运行 spark-shell 或 pySpark 时出现此错误:

我搜索了解决方案,发现在 .bashrc 或 spark-env-sh 中设置环境变量。为 pySpark shell 设置以下内容:

它也没有成功。如果我在 spark-class 文件中追溯错误。它是这样的: 在第 96 行

我的问题,

  1. 这个错误的原因是什么?我该如何解决?
  2. 是否有任何明确的步骤可以在 Windows 的 Git Bash 中设置 spark-shell(在网上找不到任何可靠的东西)?

谢谢。

0 投票
0 回答
67 浏览

apache-spark - Spark Shell 命令在本地失败

我正在尝试在本地运行 spark-shell 命令,但出现以下错误

java.net.BindException:无法分配请求的地址:服务“sparkDriver”在重试 16 次后失败(在随机空闲端口上)!考虑将服务“sparkDriver”的适当绑定地址(例如 SparkDriver 的 spark.driver.bindAddress)显式设置为正确的绑定地址。

我正在使用我的公司 MAC,但我没有管理员权限来运行 sudo 命令将主机地址更改为 127.0.0.1

提前致谢。

0 投票
0 回答
112 浏览

apache-spark - Spark 配置,org.apache.spark.shuffle.FetchFailedException 连接失败

我在 4 个虚拟机上安装了 hadoop 3.1.0 和 spark 2.4.7。我总共有 32 个内核,128G 内存。我一直在运行 spark-shell 测试

我一直在玩以下参数

撞到org.apache.spark.shuffle.FetchFailedException Failed to connect 192.168.0.XXXWARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

是否有微调这些参数和任何其他参数的一般指南?

0 投票
1 回答
272 浏览

scala - 包部署中的对象 SparkHadoopUtil 无法在包 org.apache.spark.deploy 中访问

为什么 SparkHadoopUtil 在此处无法访问,而在较低版本的 spark 中即使已导入也可以访问?

0 投票
1 回答
58 浏览

scala - 如何通过删除字段周围的引号和双引号来格式化 CSV 数据

我正在使用一个数据集,显然它的每一行都有“双引号”。当我使用浏览器时,我无法看到它,因为它默认使用 Excel 打开。

数据集如下所示(原始):

"age;"job";"marital";"education";"default";"balance";"housing";"loan";"contact";"day";"month";"duration";"campaign";"pdays";"previous";"poutcome";"y""----header 58;"management";"married";"tertiary";"no";2143;"yes";"no";"unknown";5;"may";261;1;-1;0;"unknown";"no"--row

我使用以下代码:

但我得到的是: 两端带引号的数据和用双双引号括起来的字符串值 我想要的是: age as int 和单引号括在字符串值上

0 投票
1 回答
80 浏览

apache-spark - 从 S3 读取具有不相等列分区的数据

我在 S3 中有一些分区数据,每个分区都有不同数量的列,如下所示。当我读取 pyspark 和 tru 中的数据以打印模式时,我只能读取通常存在于所有分区但不是全部的列。阅读所有列并重命名几列的最佳方法是什么。

如上所示,分区 20210503 & 20210504 中的字段比其他分区多。当我读取 s3 存储桶以获取架构时,仅显示所有分区中通用的字段。我希望在读取 s3 loc 时返回所有字段的预期结果如下。

提前致谢!!

0 投票
1 回答
38 浏览

linux - 在 linux 机器上使用 s3a 失败 > 100 列镶木地板

我正在使用 s3a 从数据库读取数据帧并写入 .parquet(s3a://bucketname//folder)。它适用于 <100 列数据框,但 crash.exits spark-shell 用于 >~100 列。如果这是列限制/版本问题/内存问题,找不到任何材料?希望从有经验的社区中找到一些方向。

PS。与以下相同的代码适用于我本地机器上的 Eclipse Windows,但在 linux 实例上出现问题

spark版本- 2.4.0-cdh6.3.3 scala版本- 2.11.12 Java版本- 1.8

0 投票
1 回答
112 浏览

apache-spark - 从 Apache Spark 加载时以科学格式存储在 Hive 表中的小数

我面临一个配置单元表的问题,其中十进制数(例如 0.00000000000)存储为 0E-11。即使它们代表相同的值 0,我也不明白为什么它以科学格式存储。这是用于数值计算的百分比字段之一,因此十进制数的比例应该很高。即使它是科学格式,它也不会以任何方式影响我们的计算。我们可以进行数字运算,但科学格式的表示可能会给使用此表的人带来一些困惑。仅当百分比为 0 时才会出现此问题。在其他存在有效百分比(如 0.123456789)的情况下,该值将按原样存储而没有任何 epsilon。

您能解释一下为什么 0.00000000000 以科学格式表示吗?另外,我想知道如何在没有像 0.00000000000 这样的 epsilon 的情况下按原样存储十进制数。出于我们的目的,我们希望解决方案仅使用 Hive 查询语言 (HQL),因为我们有一个框架,该框架采用 hql 文件并将 hql 文件的结果写入 hive 表。

为了演示这个问题,我按照以下步骤操作。

  1. 我创建了一个带有小数和字符串列的临时表。
  2. 它使用镶木地板作为文件格式。
  3. 插入 0.00000000000 作为字符串和十进制(12,11)。
  4. 显示两个列,并且都以科学格式显示。
  5. 尝试使用 parquet-tools 检查文件内容,但即使在 parquet 文件中,它也以科学格式存储。
  6. 也尝试使用纯文本格式,但行为是相同的。

Spark-shell 截图

镶木地板工具屏幕截图

我正在使用 Spark 2.3 运行。我查看了各种 StackOverflow 线程,例如thisthisthis ,但它们使用 Spark Dataframe API 来保留自然数格式,但我希望解决方案是 HQL。

如果有任何问题,请告诉我。

0 投票
1 回答
45 浏览

json - 如何使用 scala spark 将 JSON 数组拆分为多个 JSON

我有一个数组 JSON 格式如下

我需要将每个数组对象拆分为单独的 JSON 文件。有没有办法在火花壳中做到这一点。

0 投票
1 回答
49 浏览

apache-spark - Spark Shell - 系统找不到 Windows 10 中指定的路径

我正在尝试在 Windows 10 上运行 Spark。我已将 spark 文件和 winutils 放在文件夹中。我也在用户和系统变量中指定了路径。但是当运行 spark-shell 命令时,它给了我一个错误。

错误消息 - 系统找不到指定的路径。

请帮助我解决问题。