问题标签 [spark3]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

59 问题

0 投票

0 回答

28 浏览

apache-kafka - Spark3-submit 继续运行而不返回任何错误或结果

我试图使用 spark3 和 python 运行一个简单的数据流。按照此指南链接，该命令不会返回任何错误或结果。但我不确定在哪里可以看到日志，或者我的 spark3 是否正在流式传输。

我用于终端 1 的命令：

终端 2 中的命令：

终端 2 上的结果：

同样的结果不断循环。但我在控制台中看不到任何错误或任何成功结果。

Spark UI 中的结果：

2021-07-23T03:05:29.047

0 投票

1 回答

174 浏览

scala - 需要帮助从 Spark 2.0 迁移到 Spark 3.1 - 可累加到 AccumulatorV2

我正在努力添加Spark 3.1和Scala 2.12支持Kylo Data-Lake Management Platform。

我需要有关迁移以下功能的帮助：

可以在这里和这里找到

我正在添加一个新的 Maven 模块kylo-spark-catalog-spark-v3来支持apache-spark:3.1.2并scala:2.12.10在撰写本文时。

我在以下方面遇到了麻烦：

创建一个实例AccumulatorV2作为类的弃用通知Accumulable不是很清楚。这是我对第一个功能的尝试-未编译：

在第二个函数中创建 UDF 的实例，UserDefinedFunction似乎抱怨它不能被实例化为它的抽象类。这是我对第二个功能的尝试-编译但不确定是否有意义：

您能否就如何解决这个问题向我提出建议，或者是否有与此案相近的文档。

scala apache-spark-sql apache-spark-2.0 kylo spark3

2021-08-02T12:07:47.100

0 投票

1 回答

58 浏览

scala - 使用 scalatest Flatspec 的杰克逊数据绑定错误

spark 3.1.1我试图使用带有&的 gradle 在 IntelliJ 中执行 scala 测试用例scala 2.12.13。但是 scala 测试因以下jackson-databind错误而失败。

我正在导入scalatest& holdenkarauin build.gradle：

这些测试在使用spark 2.4.7&scala 2.11.12与以下依赖版本时运行良好。

不知道我在这里错过了什么。我尝试强制更新杰克逊库，但仍然没有解决问题。

scala apache-spark jackson scalatest spark3

2021-08-12T22:01:34.207

0 投票

1 回答

93 浏览

pyspark - spark struct streaming writeStream 输出无数据但无错误

我有一个结构流作业，它从 Kafka 主题读取消息，然后保存到 dbfs。代码如下：

我可以看到检查点工作正常。但是，没有数据输出。

显示空表。任何线索为什么？

pyspark apache-kafka spark-structured-streaming spark-kafka-integration spark3

2021-08-25T20:46:32.137

0 投票

1 回答

93 浏览

pandas - java.lang.NoSuchMethodError: com.google.flatbuffers.FlatBufferBuilder.createString(Ljava/lang/CharSequence;)I

在使用 pandas 1.1.5 和 pyarrow 2.0.0 运行 pyspark3 时出现以下错误：

火花代码：

例外：

pandas apache-spark pyspark spark3

2021-09-18T15:52:24.593

0 投票

1 回答

208 浏览

apache-spark - Apache Spark 3 是否支持 Spark RDD 的 GPU 使用？

我目前正在尝试使用Hail（用 python 和 Scala 编写的基因组分析库）运行基因组分析管道。最近，Apache Spark 3 发布，它支持 GPU 使用。

我尝试使用spark-rapids库启动带有 gpu 节点的本地 slurm 集群。我能够初始化集群。但是，当我尝试运行冰雹任务时，执行者不断被杀死。

在 Hail 论坛上查询时，我得到的回复是

那是 Spark-SQL 的 GPU 代码生成器，Hail 不使用任何 Spark-SQL 接口，仅使用 RDD 接口。

那么，Spark3 不支持 RDD 接口使用 GPU 吗？

apache-spark gpu rdd rapids spark3

2021-09-21T17:32:56.917

0 投票

0 回答

24 浏览

python - Spark3：无法使用 spark sql 命令查看配置单元数据库和表

我们最近在 Linux 服务器上安装了 spark3。我们在 hive 中创建了某些数据库。当我们使用spark3-submit运行 pyspark 程序时，它正在连接到 hive 服务器并能够查看和运行数据库表上的查询。但是，如果我们对spark-submit执行相同操作，我将无法连接到同一个配置单元服务器并查看/运行相同的 spark sql 语句。

带有代码的示例：

如果我使用spark-submit file_name.py运行，则显示不同的数据库

如果我使用spark3-submit file_name.py运行，则显示输出

我不确定是否需要对设置/配置进行任何更改以进行同步。

python pyspark hive apache-spark-sql spark3

2021-09-27T08:33:13.103

0 投票

1 回答

137 浏览

apache-spark - 如何在 Spark3 中获取 add_months Spark2 行为

我们正在将庞大的代码库从 Spark2 迁移到 Spark 3.x。为了逐步进行迁移，一些配置被设置为 legacy 以具有与 Spark 2.x 中相同的行为。功能add_months，但是，AFAIK 没有“传统”模式。根据迁移文档在 Spark3 中

在 Spark 3.0 中，如果原始日期是月份的最后一天，则 add_months 函数不会将结果日期调整为月份的最后一天。例如，选择 add_months(DATE'2019-02-28', 1) 结果 2019-03-28。在 Spark 版本 2.4 及更低版本中，当原始日期是月份的最后一天时，会调整结果日期。例如，将一个月添加到 2019-02-28 会导致 2019-03-31。

而 Spark 2.x 将结果日期调整为该月的最后一天。显而易见的解决方案是围绕它编写一个包装器，但我想知道 Spark3 中是否有任何配置来获得add_months Spark2 行为。

编辑：

我最终在 Scala Spark 3.x 中实现了 add_months 的包装器：

apache-spark apache-spark-sql spark3

2021-10-15T10:50:51.850

0 投票

0 回答

23 浏览

logging - 在 Yarn 客户端模式下的 Spark 3 WebUI 中找不到执行程序日志

我在 Yarn 客户端模式下提交作业，但在 Spark 3.1.2 WebUI 中，我找不到执行程序日志。在stage页面中，它只显示executors的进度条，而executor的stdout和stderr log没有链接。当我单击 executors 标签时，页面中没有显示任何内容。

有人知道在哪里可以找到执行程序日志吗？有什么需要设置的吗？

logging hadoop-yarn webui spark3

2021-10-21T17:21:20.993

0 投票

2 回答

74 浏览

apache-spark - Spark 每周一开始

这是我的数据集：

dayofweek返回从星期日开始的工作日数字。
如何从星期一而不是星期日开始返回工作日数字？IE

apache-spark pyspark apache-spark-sql dayofweek spark3

2021-11-30T18:32:18.027

1 2 3 4 5 6 7 8 9 10

问题标签 [spark3]

Reference