问题标签 [spark3]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-kafka - Spark3-submit 继续运行而不返回任何错误或结果
我试图使用 spark3 和 python 运行一个简单的数据流。按照此指南链接,该命令不会返回任何错误或结果。但我不确定在哪里可以看到日志,或者我的 spark3 是否正在流式传输。
我用于终端 1 的命令:
终端 2 中的命令:
终端 2 上的结果:
同样的结果不断循环。但我在控制台中看不到任何错误或任何成功结果。
Spark UI 中的结果:
scala - 需要帮助从 Spark 2.0 迁移到 Spark 3.1 - 可累加到 AccumulatorV2
我正在努力添加Spark 3.1
和Scala 2.12
支持Kylo Data-Lake Management Platform。
我需要有关迁移以下功能的帮助:
我正在添加一个新的 Maven 模块kylo-spark-catalog-spark-v3
来支持apache-spark:3.1.2
并scala:2.12.10
在撰写本文时。
我在以下方面遇到了麻烦:
- 创建一个实例
AccumulatorV2
作为类的弃用通知Accumulable
不是很清楚。这是我对第一个功能的尝试-未编译:
- 在第二个函数中创建 UDF 的实例,
UserDefinedFunction
似乎抱怨它不能被实例化为它的抽象类。这是我对第二个功能的尝试-编译但不确定是否有意义:
您能否就如何解决这个问题向我提出建议,或者是否有与此案相近的文档。
scala - 使用 scalatest Flatspec 的杰克逊数据绑定错误
spark 3.1.1
我试图使用带有&的 gradle 在 IntelliJ 中执行 scala 测试用例scala 2.12.13
。但是 scala 测试因以下jackson-databind
错误而失败。
我正在导入scalatest
& holdenkarau
in build.gradle
:
这些测试在使用spark 2.4.7
&scala 2.11.12
与以下依赖版本时运行良好。
不知道我在这里错过了什么。我尝试强制更新杰克逊库,但仍然没有解决问题。
pyspark - spark struct streaming writeStream 输出无数据但无错误
我有一个结构流作业,它从 Kafka 主题读取消息,然后保存到 dbfs。代码如下:
我可以看到检查点工作正常。但是,没有数据输出。
显示空表。任何线索为什么?
pandas - java.lang.NoSuchMethodError: com.google.flatbuffers.FlatBufferBuilder.createString(Ljava/lang/CharSequence;)I
在使用 pandas 1.1.5 和 pyarrow 2.0.0 运行 pyspark3 时出现以下错误:
火花代码:
例外:
apache-spark - Apache Spark 3 是否支持 Spark RDD 的 GPU 使用?
我目前正在尝试使用Hail(用 python 和 Scala 编写的基因组分析库)运行基因组分析管道。最近,Apache Spark 3 发布,它支持 GPU 使用。
我尝试使用spark-rapids库启动带有 gpu 节点的本地 slurm 集群。我能够初始化集群。但是,当我尝试运行冰雹任务时,执行者不断被杀死。
在 Hail 论坛上查询时,我得到的回复是
那是 Spark-SQL 的 GPU 代码生成器,Hail 不使用任何 Spark-SQL 接口,仅使用 RDD 接口。
那么,Spark3 不支持 RDD 接口使用 GPU 吗?
python - Spark3:无法使用 spark sql 命令查看配置单元数据库和表
我们最近在 Linux 服务器上安装了 spark3。我们在 hive 中创建了某些数据库。当我们使用spark3-submit运行 pyspark 程序时,它正在连接到 hive 服务器并能够查看和运行数据库表上的查询。但是,如果我们对spark-submit执行相同操作,我将无法连接到同一个配置单元服务器并查看/运行相同的 spark sql 语句。
带有代码的示例:
- 如果我使用spark-submit file_name.py运行,则显示不同的数据库
- 如果我使用spark3-submit file_name.py运行,则显示输出
我不确定是否需要对设置/配置进行任何更改以进行同步。
apache-spark - 如何在 Spark3 中获取 **add_months** Spark2 行为
我们正在将庞大的代码库从 Spark2 迁移到 Spark 3.x。为了逐步进行迁移,一些配置被设置为 legacy 以具有与 Spark 2.x 中相同的行为。功能add_months,但是,AFAIK 没有“传统”模式。根据迁移文档在 Spark3 中
在 Spark 3.0 中,如果原始日期是月份的最后一天,则 add_months 函数不会将结果日期调整为月份的最后一天。例如,选择 add_months(DATE'2019-02-28', 1) 结果 2019-03-28。在 Spark 版本 2.4 及更低版本中,当原始日期是月份的最后一天时,会调整结果日期。例如,将一个月添加到 2019-02-28 会导致 2019-03-31。
而 Spark 2.x 将结果日期调整为该月的最后一天。显而易见的解决方案是围绕它编写一个包装器,但我想知道 Spark3 中是否有任何配置来获得add_months Spark2 行为。
编辑:
我最终在 Scala Spark 3.x 中实现了 add_months 的包装器:
logging - 在 Yarn 客户端模式下的 Spark 3 WebUI 中找不到执行程序日志
我在 Yarn 客户端模式下提交作业,但在 Spark 3.1.2 WebUI 中,我找不到执行程序日志。在stage页面中,它只显示executors的进度条,而executor的stdout和stderr log没有链接。当我单击 executors 标签时,页面中没有显示任何内容。
有人知道在哪里可以找到执行程序日志吗?有什么需要设置的吗?
apache-spark - Spark 每周一开始
这是我的数据集:
dayofweek
返回从星期日开始的工作日数字。
如何从星期一而不是星期日开始返回工作日数字?IE