“spark-shell”的相关标签问题

0 投票

3 回答

2176 浏览

windows - 在 Windows 上的 Git Bash 中设置 Spark-shell

我的系统上的任何其他软件都没有遇到过这个问题。能够在窗口终端/命令提示符和 Git-Bash 中安装和运行所有内容

最近，我开始学习 Spark。安装 Spark 设置所有 JAVA_HOME、SCALA_HOME、hadoop winutils 文件。Spark-shell 和 pyspark-shell 都在命令提示符/窗口终端和 Jupyter 中通过 pyspark lib 完美运行。

但我无法为 Git Bash 弄清楚它（尝试使用管理员权限）。当我尝试运行 spark-shell 或 pySpark 时出现此错误：

我搜索了解决方案，发现在 .bashrc 或 spark-env-sh 中设置环境变量。为 pySpark shell 设置以下内容：

它也没有成功。如果我在 spark-class 文件中追溯错误。它是这样的：在第 96 行

我的问题，

这个错误的原因是什么？我该如何解决？
是否有任何明确的步骤可以在 Windows 的 Git Bash 中设置 spark-shell（在网上找不到任何可靠的东西）？

谢谢。

2020-12-29T23:54:30.757

0 投票

0 回答

67 浏览

apache-spark - Spark Shell 命令在本地失败

我正在尝试在本地运行 spark-shell 命令，但出现以下错误

java.net.BindException：无法分配请求的地址：服务“sparkDriver”在重试 16 次后失败（在随机空闲端口上）！考虑将服务“sparkDriver”的适当绑定地址（例如 SparkDriver 的 spark.driver.bindAddress）显式设置为正确的绑定地址。

我正在使用我的公司 MAC，但我没有管理员权限来运行 sudo 命令将主机地址更改为 127.0.0.1

提前致谢。

apache-spark pyspark spark-shell

2021-01-27T23:19:04.983

0 投票

0 回答

112 浏览

apache-spark - Spark 配置，org.apache.spark.shuffle.FetchFailedException 连接失败

我在 4 个虚拟机上安装了 hadoop 3.1.0 和 spark 2.4.7。我总共有 32 个内核，128G 内存。我一直在运行 spark-shell 测试

我一直在玩以下参数

撞到org.apache.spark.shuffle.FetchFailedException Failed to connect 192.168.0.XXX 或WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

是否有微调这些参数和任何其他参数的一般指南？

apache-spark spark-shell

2021-02-24T11:30:58.617

0 投票

1 回答

272 浏览

scala - 包部署中的对象 SparkHadoopUtil 无法在包 org.apache.spark.deploy 中访问

为什么 SparkHadoopUtil 在此处无法访问，而在较低版本的 spark 中即使已导入也可以访问？

scala apache-spark apache-spark-sql spark-shell

2021-03-22T06:33:46.110

0 投票

1 回答

58 浏览

scala - 如何通过删除字段周围的引号和双引号来格式化 CSV 数据

我正在使用一个数据集，显然它的每一行都有“双引号”。当我使用浏览器时，我无法看到它，因为它默认使用 Excel 打开。

数据集如下所示（原始）：

"age;"job";"marital";"education";"default";"balance";"housing";"loan";"contact";"day";"month";"duration";"campaign";"pdays";"previous";"poutcome";"y""----header 58;"management";"married";"tertiary";"no";2143;"yes";"no";"unknown";5;"may";261;1;-1;0;"unknown";"no"--row

我使用以下代码：

但我得到的是：两端带引号的数据和用双双引号括起来的字符串值我想要的是： age as int 和单引号括在字符串值上

scala spark-shell

2021-04-13T05:09:54.993

0 投票

1 回答

80 浏览

apache-spark - 从 S3 读取具有不相等列分区的数据

我在 S3 中有一些分区数据，每个分区都有不同数量的列，如下所示。当我读取 pyspark 和 tru 中的数据以打印模式时，我只能读取通常存在于所有分区但不是全部的列。阅读所有列并重命名几列的最佳方法是什么。

如上所示，分区 20210503 & 20210504 中的字段比其他分区多。当我读取 s3 存储桶以获取架构时，仅显示所有分区中通用的字段。我希望在读取 s3 loc 时返回所有字段的预期结果如下。

提前致谢！！

apache-spark pyspark spark-shell

2021-05-05T22:53:52.683

0 投票

1 回答

38 浏览

linux - 在 linux 机器上使用 s3a 失败 > 100 列镶木地板

我正在使用 s3a 从数据库读取数据帧并写入 .parquet(s3a://bucketname//folder)。它适用于 <100 列数据框，但 crash.exits spark-shell 用于 >~100 列。如果这是列限制/版本问题/内存问题，找不到任何材料？希望从有经验的社区中找到一些方向。

PS。与以下相同的代码适用于我本地机器上的 Eclipse Windows，但在 linux 实例上出现问题

spark版本- 2.4.0-cdh6.3.3 scala版本- 2.11.12 Java版本- 1.8

linux scala parquet spark-shell amazon-s3-access-points

2021-05-20T14:34:21.293

0 投票

1 回答

112 浏览

apache-spark - 从 Apache Spark 加载时以科学格式存储在 Hive 表中的小数

我面临一个配置单元表的问题，其中十进制数（例如 0.00000000000）存储为 0E-11。即使它们代表相同的值 0，我也不明白为什么它以科学格式存储。这是用于数值计算的百分比字段之一，因此十进制数的比例应该很高。即使它是科学格式，它也不会以任何方式影响我们的计算。我们可以进行数字运算，但科学格式的表示可能会给使用此表的人带来一些困惑。仅当百分比为 0 时才会出现此问题。在其他存在有效百分比（如 0.123456789）的情况下，该值将按原样存储而没有任何 epsilon。

您能解释一下为什么 0.00000000000 以科学格式表示吗？另外，我想知道如何在没有像 0.00000000000 这样的 epsilon 的情况下按原样存储十进制数。出于我们的目的，我们希望解决方案仅使用 Hive 查询语言 (HQL)，因为我们有一个框架，该框架采用 hql 文件并将 hql 文件的结果写入 hive 表。

为了演示这个问题，我按照以下步骤操作。

我创建了一个带有小数和字符串列的临时表。
它使用镶木地板作为文件格式。
插入 0.00000000000 作为字符串和十进制（12,11）。
显示两个列，并且都以科学格式显示。
尝试使用 parquet-tools 检查文件内容，但即使在 parquet 文件中，它也以科学格式存储。
也尝试使用纯文本格式，但行为是相同的。

我正在使用 Spark 2.3 运行。我查看了各种 StackOverflow 线程，例如this、this和this ，但它们使用 Spark Dataframe API 来保留自然数格式，但我希望解决方案是 HQL。

如果有任何问题，请告诉我。

apache-spark hive apache-spark-sql parquet spark-shell

2021-05-26T01:38:19.550

0 投票

1 回答

45 浏览

json - 如何使用 scala spark 将 JSON 数组拆分为多个 JSON

我有一个数组 JSON 格式如下

我需要将每个数组对象拆分为单独的 JSON 文件。有没有办法在火花壳中做到这一点。

json scala apache-spark spark-shell

2021-06-18T11:45:38.140

0 投票

1 回答

49 浏览

apache-spark - Spark Shell - 系统找不到 Windows 10 中指定的路径

我正在尝试在 Windows 10 上运行 Spark。我已将 spark 文件和 winutils 放在文件夹中。我也在用户和系统变量中指定了路径。但是当运行 spark-shell 命令时，它给了我一个错误。

错误消息 - 系统找不到指定的路径。

请帮助我解决问题。

apache-spark spark-shell

2021-06-25T13:35:22.657

问题标签 [spark-shell]

Reference