问题标签 [spark-shell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
windows - 在 Windows 上的 Git Bash 中设置 Spark-shell
我的系统上的任何其他软件都没有遇到过这个问题。能够在窗口终端/命令提示符和 Git-Bash 中安装和运行所有内容
最近,我开始学习 Spark。安装 Spark 设置所有 JAVA_HOME、SCALA_HOME、hadoop winutils 文件。Spark-shell 和 pyspark-shell 都在命令提示符/窗口终端和 Jupyter 中通过 pyspark lib 完美运行。
但我无法为 Git Bash 弄清楚它(尝试使用管理员权限)。当我尝试运行 spark-shell 或 pySpark 时出现此错误:
我搜索了解决方案,发现在 .bashrc 或 spark-env-sh 中设置环境变量。为 pySpark shell 设置以下内容:
它也没有成功。如果我在 spark-class 文件中追溯错误。它是这样的: 在第 96 行
我的问题,
- 这个错误的原因是什么?我该如何解决?
- 是否有任何明确的步骤可以在 Windows 的 Git Bash 中设置 spark-shell(在网上找不到任何可靠的东西)?
谢谢。
apache-spark - Spark Shell 命令在本地失败
我正在尝试在本地运行 spark-shell 命令,但出现以下错误
java.net.BindException:无法分配请求的地址:服务“sparkDriver”在重试 16 次后失败(在随机空闲端口上)!考虑将服务“sparkDriver”的适当绑定地址(例如 SparkDriver 的 spark.driver.bindAddress)显式设置为正确的绑定地址。
我正在使用我的公司 MAC,但我没有管理员权限来运行 sudo 命令将主机地址更改为 127.0.0.1
提前致谢。
apache-spark - Spark 配置,org.apache.spark.shuffle.FetchFailedException 连接失败
我在 4 个虚拟机上安装了 hadoop 3.1.0 和 spark 2.4.7。我总共有 32 个内核,128G 内存。我一直在运行 spark-shell 测试
我一直在玩以下参数
撞到org.apache.spark.shuffle.FetchFailedException Failed to connect 192.168.0.XXX
或WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
是否有微调这些参数和任何其他参数的一般指南?
scala - 包部署中的对象 SparkHadoopUtil 无法在包 org.apache.spark.deploy 中访问
为什么 SparkHadoopUtil 在此处无法访问,而在较低版本的 spark 中即使已导入也可以访问?
scala - 如何通过删除字段周围的引号和双引号来格式化 CSV 数据
我正在使用一个数据集,显然它的每一行都有“双引号”。当我使用浏览器时,我无法看到它,因为它默认使用 Excel 打开。
数据集如下所示(原始):
"age;"job";"marital";"education";"default";"balance";"housing";"loan";"contact";"day";"month";"duration";"campaign";"pdays";"previous";"poutcome";"y""----header 58;"management";"married";"tertiary";"no";2143;"yes";"no";"unknown";5;"may";261;1;-1;0;"unknown";"no"--row
我使用以下代码:
但我得到的是: 两端带引号的数据和用双双引号括起来的字符串值 我想要的是: age as int 和单引号括在字符串值上
apache-spark - 从 S3 读取具有不相等列分区的数据
我在 S3 中有一些分区数据,每个分区都有不同数量的列,如下所示。当我读取 pyspark 和 tru 中的数据以打印模式时,我只能读取通常存在于所有分区但不是全部的列。阅读所有列并重命名几列的最佳方法是什么。
如上所示,分区 20210503 & 20210504 中的字段比其他分区多。当我读取 s3 存储桶以获取架构时,仅显示所有分区中通用的字段。我希望在读取 s3 loc 时返回所有字段的预期结果如下。
提前致谢!!
linux - 在 linux 机器上使用 s3a 失败 > 100 列镶木地板
我正在使用 s3a 从数据库读取数据帧并写入 .parquet(s3a://bucketname//folder)。它适用于 <100 列数据框,但 crash.exits spark-shell 用于 >~100 列。如果这是列限制/版本问题/内存问题,找不到任何材料?希望从有经验的社区中找到一些方向。
PS。与以下相同的代码适用于我本地机器上的 Eclipse Windows,但在 linux 实例上出现问题
spark版本- 2.4.0-cdh6.3.3 scala版本- 2.11.12 Java版本- 1.8
apache-spark - 从 Apache Spark 加载时以科学格式存储在 Hive 表中的小数
我面临一个配置单元表的问题,其中十进制数(例如 0.00000000000)存储为 0E-11。即使它们代表相同的值 0,我也不明白为什么它以科学格式存储。这是用于数值计算的百分比字段之一,因此十进制数的比例应该很高。即使它是科学格式,它也不会以任何方式影响我们的计算。我们可以进行数字运算,但科学格式的表示可能会给使用此表的人带来一些困惑。仅当百分比为 0 时才会出现此问题。在其他存在有效百分比(如 0.123456789)的情况下,该值将按原样存储而没有任何 epsilon。
您能解释一下为什么 0.00000000000 以科学格式表示吗?另外,我想知道如何在没有像 0.00000000000 这样的 epsilon 的情况下按原样存储十进制数。出于我们的目的,我们希望解决方案仅使用 Hive 查询语言 (HQL),因为我们有一个框架,该框架采用 hql 文件并将 hql 文件的结果写入 hive 表。
为了演示这个问题,我按照以下步骤操作。
- 我创建了一个带有小数和字符串列的临时表。
- 它使用镶木地板作为文件格式。
- 插入 0.00000000000 作为字符串和十进制(12,11)。
- 显示两个列,并且都以科学格式显示。
- 尝试使用 parquet-tools 检查文件内容,但即使在 parquet 文件中,它也以科学格式存储。
- 也尝试使用纯文本格式,但行为是相同的。
我正在使用 Spark 2.3 运行。我查看了各种 StackOverflow 线程,例如this、this和this ,但它们使用 Spark Dataframe API 来保留自然数格式,但我希望解决方案是 HQL。
如果有任何问题,请告诉我。
json - 如何使用 scala spark 将 JSON 数组拆分为多个 JSON
我有一个数组 JSON 格式如下
我需要将每个数组对象拆分为单独的 JSON 文件。有没有办法在火花壳中做到这一点。
apache-spark - Spark Shell - 系统找不到 Windows 10 中指定的路径
我正在尝试在 Windows 10 上运行 Spark。我已将 spark 文件和 winutils 放在文件夹中。我也在用户和系统变量中指定了路径。但是当运行 spark-shell 命令时,它给了我一个错误。
错误消息 - 系统找不到指定的路径。
请帮助我解决问题。