问题标签 [spark3]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
28 浏览

apache-kafka - Spark3-submit 继续运行而不返回任何错误或结果

我试图使用 spark3 和 python 运行一个简单的数据流。按照此指南链接,该命令不会返回任何错误或结果。但我不确定在哪里可以看到日志,或者我的 spark3 是否正在流式传输。

我用于终端 1 的命令:

终端 2 中的命令:

终端 2 上的结果:

同样的结果不断循环。但我在控制台中看不到任何错误或任何成功结果。

在此处输入图像描述

Spark UI 中的结果:

在此处输入图像描述

0 投票
1 回答
174 浏览

scala - 需要帮助从 Spark 2.0 迁移到 Spark 3.1 - 可累加到 AccumulatorV2

我正在努力添加Spark 3.1Scala 2.12支持Kylo Data-Lake Management Platform

我需要有关迁移以下功能的帮助:

可以在这里这里找到

我正在添加一个新的 Maven 模块kylo-spark-catalog-spark-v3来支持apache-spark:3.1.2scala:2.12.10在撰写本文时。

我在以下方面遇到了麻烦:

  1. 创建一个实例AccumulatorV2作为类的弃用通知Accumulable不是很清楚。这是我对第一个功能的尝试-未编译
  1. 在第二个函数中创建 UDF 的实例,UserDefinedFunction似乎抱怨它不能被实例化为它的抽象类。这是我对第二个功能的尝试-编译但不确定是否有意义:

您能否就如何解决这个问题向我提出建议,或者是否有与此案相近的文档。

0 投票
1 回答
58 浏览

scala - 使用 scalatest Flatspec 的杰克逊数据绑定错误

spark 3.1.1我试图使用带有&的 gradle 在 IntelliJ 中执行 scala 测试用例scala 2.12.13。但是 scala 测试因以下jackson-databind错误而失败。

我正在导入scalatest& holdenkarauin build.gradle

这些测试在使用spark 2.4.7&scala 2.11.12与以下依赖版本时运行良好。

不知道我在这里错过了什么。我尝试强制更新杰克逊库,但仍然没有解决问题。

0 投票
1 回答
93 浏览

pyspark - spark struct streaming writeStream 输出无数据但无错误

我有一个结构流作业,它从 Kafka 主题读取消息,然后保存到 dbfs。代码如下:

我可以看到检查点工作正常。但是,没有数据输出。

显示空表。任何线索为什么?

0 投票
1 回答
93 浏览

pandas - java.lang.NoSuchMethodError: com.google.flatbuffers.FlatBufferBuilder.createString(Ljava/lang/CharSequence;)I

在使用 pandas 1.1.5 和 pyarrow 2.0.0 运行 pyspark3 时出现以下错误:

火花代码:

例外:

0 投票
1 回答
208 浏览

apache-spark - Apache Spark 3 是否支持 Spark RDD 的 GPU 使用?

我目前正在尝试使用Hail(用 python 和 Scala 编写的基因组分析库)运行基因组分析管道。最近,Apache Spark 3 发布,它支持 GPU 使用。

我尝试使用spark-rapids库启动带有 gpu 节点的本地 slurm 集群。我能够初始化集群。但是,当我尝试运行冰雹任务时,执行者不断被杀死。

在 Hail 论坛上查询时,我得到的回复是

那是 Spark-SQL 的 GPU 代码生成器,Hail 不使用任何 Spark-SQL 接口,仅使用 RDD 接口。

那么,Spark3 不支持 RDD 接口使用 GPU 吗?

0 投票
0 回答
24 浏览

python - Spark3:无法使用 spark sql 命令查看配置单元数据库和表

我们最近在 Linux 服务器上安装了 spark3。我们在 hive 中创建了某些数据库。当我们使用spark3-submit运行 pyspark 程序时,它正在连接到 hive 服务器并能够查看和运行数据库表上的查询。但是,如果我们对spark-submit执行相同操作,我将无法连接到同一个配置单元服务器并查看/运行相同的 spark sql 语句。

带有代码的示例:

  1. 如果我使用spark-submit file_name.py运行,则显示不同的数据库
  1. 如果我使用spark3-submit file_name.py运行,则显示输出

我不确定是否需要对设置/配置进行任何更改以进行同步。

0 投票
1 回答
137 浏览

apache-spark - 如何在 Spark3 中获取 **add_months** Spark2 行为

我们正在将庞大的代码库从 Spark2 迁移到 Spark 3.x。为了逐步进行迁移,一些配置被设置为 legacy 以具有与 Spark 2.x 中相同的行为。功能add_months,但是,AFAIK 没有“传统”模式。根据迁移文档在 Spark3 中

在 Spark 3.0 中,如果原始日期是月份的最后一天,则 add_months 函数不会将结果日期调整为月份的最后一天。例如,选择 add_months(DATE'2019-02-28', 1) 结果 2019-03-28。在 Spark 版本 2.4 及更低版本中,当原始日期是月份的最后一天时,会调整结果日期。例如,将一个月添加到 2019-02-28 会导致 2019-03-31。

而 Spark 2.x 将结果日期调整为该月的最后一天。显而易见的解决方案是围绕它编写一个包装器,但我想知道 Spark3 中是否有任何配置来获得add_months Spark2 行为。

编辑:

我最终在 Scala Spark 3.x 中实现了 add_months 的包装器:

0 投票
0 回答
23 浏览

logging - 在 Yarn 客户端模式下的 Spark 3 WebUI 中找不到执行程序日志

我在 Yarn 客户端模式下提交作业,但在 Spark 3.1.2 WebUI 中,我找不到执行程序日志。在stage页面中,它只显示executors的进度条,而executor的stdout和stderr log没有链接。当我单击 executors 标签时,页面中没有显示任何内容。

有人知道在哪里可以找到执行程序日志吗?有什么需要设置的吗?

0 投票
2 回答
74 浏览

apache-spark - Spark 每周一开始

这是我的数据集:

dayofweek返回从星期日开始的工作日数字。
如何从星期一而不是星期日开始返回工作日数字?IE