问题标签 [apache-hudi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
632 浏览

apache-spark - Apache Hudi deltastreamer 在线程“主”org.apache.hudi.com.beust.jcommander.ParameterException' 中抛出异常,没有定义主参数

版本 Apache Hudi 0.6.1,Spark 2.4.6

下面是 Hudi deltastreamer 的标准 spark-submit 命令,因为没有定义主要参数,所以它正在抛出。我可以看到所有的属性参数都给出了。感谢对此错误的任何帮助。

0 投票
2 回答
169 浏览

amazon-web-services - 安装 Hudi 版本。AWS EMR 上的 0.6.0

谁能帮我在 AWS EMR 版本 6.0.0 上正确安装 Hudi 0.6.0 吗?我认为 AWS 添加了一些自定义脚本以使 Hudi 在 EMR 中正常工作

0 投票
1 回答
599 浏览

schema - Apache Hudi 模式演变

任何人都可以分享在 apache hudi 中处理模式更改的正确方法吗?示例:将列从 col1 重命名为 col2 或将数据类型从 long 更改为 int。(皮斯帕克)

0 投票
0 回答
647 浏览

apache-spark - 无法使用 Apache Hudi 写入非分区表

我正在使用 Apache Hudi 将非分区表写入 AWS S3 并将其同步到配置单元。这是DataSourceWriteOptions正在使用的。

如果分区表正在成功写入,但如果我尝试写入非分区表,则会出错。这是错误输出片段

这是代码HoodieInputFormatUtils.getTableMetaClientForBasePath()

第 283 行LOG.info()是导致 NullPointerException 的原因。所以看起来为分区提供的配置值已经搞砸了。此代码正在 AWS EMR 上运行。

0 投票
3 回答
426 浏览

classpath - Databricks - java.lang.NoClassDefFoundError: org/json/JSONException

我们无法弄清楚以下问题:我们正在尝试使用 Apache Hudi 将数据保存到存储中。问题是当我们上传一个在依赖项中包含 org.json 包的胖 jar 时,df.save() 应用程序失败了

即使我转到集群库并显式添加依赖项,它仍然无法保存。另一方面,当我刚刚new JSONException("hello")在笔记本中创建时,一切似乎都运行良好。什么可能导致这种行为?谢谢

0 投票
0 回答
281 浏览

apache-flink - Flink 的 hive 流与 iceberg/hudi/delta

有一些开源的datake解决方案支持crud/acid/incremental pull,例如Iceberg、Hudi、Delta。我认为他们已经做了 flink 的 Hive Streaming 想做的事情,甚至做得更好,

所以,我想问一下,flink 的 hive 流的真正力量比 flink+iceberg/flink+hudi 提供了什么。也许 flink+iceberg 或 flink+hudi 目前还没有成熟,但这不是一个大问题,它们会是很快成熟。

0 投票
0 回答
390 浏览

apache-kafka - Debezium + Schema Registry Avro Schema:为什么我有“之前”和“之后”字段,以及如何将其与 HudiDeltaStreamer 一起使用?

我在 PostgreSQL 中有一个具有以下模式的表:

当我为这个使用io.confluent.connect.avro.AvroConverterSchema Registry 的表运行 Debezium 源连接器时,它会创建一个看起来像这样的 Schema Registry 模式(这里省略了一些字段):

我的 Kafka 主题中由 Debezium 生成的消息如下所示(省略了某些字段):

当我插入或更新时,"before"总是null,并且"after"包含我的数据;当我删除时,反之亦然:"after"为空并"before"包含数据(尽管所有字段都设置为默认值)。

问题 #1:为什么 Kafka Connect 使用"before""after"字段创建模式?为什么这些领域的行为如此奇怪?

问题 #2:是否有一种内置方法可以让 Kafka Connect在仍然使用 Schema Registry 的同时向我的主题发送平面消息?请注意,Flatten变换不是我需要的:如果启用,我仍将拥有"before"and"after"字段。

问题 #3(实际上并不希望得到任何东西,但也许有人知道):扁平化我的消息的必要性来自于我需要使用HudiDeltaStreamer从我的主题中读取数据,而且这个工具似乎需要扁平化的输入数据。和字段最终在生成的 .parquet 文件中成为单独的类似对象"before"。有谁知道 HudiDeltaStreamer 应该如何与 Kafka Connect 生成的消息集成?"after"

0 投票
1 回答
138 浏览

scala - Hudi:在嵌入式模式下访问时间服务器超时

我正在测试 Hudi 0.5.3(由 AWS Athena 支持),方法是在嵌入式模式下使用 Spark 运行它,即使用单元测试。起初测试成功,但现在由于访问 Hudi 的时间服务器时超时而失败。

以下内容基于Hudi:入门指南。

火花会话设置:

导致超时异常的代码:

超时和异常抛出:

我无法为 Hudi 时间服务器端口尝试不同的端口设置,因为我无法找到控制端口的配置设置。

任何想法为什么访问时间服务器超时?

0 投票
1 回答
475 浏览

apache-spark - Spark-Hudi:另存为表到 Glue/Hive 目录

场景: 使用方法存储 Hudi Spark 数据帧saveAsTable(data frame writer),这样Hudi 支持的带有 org.apache.hudi.hadoop.HoodieParquetInputFormatInput 格式 schema 的表就会自动生成。

目前,saveAsTable正常(非 Hudi 表)可以正常工作,生成默认输入格式。我想使用支持的输入文件格式自动创建 Hudi 表,或者使用某些覆盖版本saveAsTable或其他方式保持在 spark 的前提下。

0 投票
1 回答
1120 浏览

apache-spark - spark-shell 的 Apache Hudi 示例为 Spark 2.3.0 引发错误

我正在尝试使用 spark-shell运行此示例( https://hudi.apache.org/docs/quick-start-guide.html )。Apache Hudi 文档说“Hudi 与 Spark-2.x 版本一起工作”环境详细信息是:

平台:HDP 2.6.5.0-292 Spark 版本:2.3.0.2.6.5.279-2 Scala 版本:2.11.8

我正在使用以下 spark-shell 命令(注意 - spark-avro 版本不完全匹配,因为我找不到 Spark 2.3.2 的相应 spark-avro 依赖项)

当我尝试写入数据时,出现以下错误:

对我来说,看起来正确的 avro 版本没有添加到类路径中或被拾取。任何人都可以建议解决方法吗?我被困在这很长一段时间了。