问题标签 [apache-hudi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
21 浏览

apache-hudi - [HUDI]在 HUDI 中创建仅附加原始数据

Raw (S3) --> Cleaned (HUDI, append only) ---> Standard (HUDI, upserts)

0 投票
1 回答
48 浏览

apache-spark - 用 Apache Hudi 编写的 Parquet 文件名的每个部分代表什么?

Apache Hudi 写出每个 parquet 文件,如下所示:

我试图了解文件的每个部分代表什么。这是我目前的理解,但我想得到任何可能知道的人的确认和澄清。

我不确定以下部分代表什么:

0 投票
0 回答
50 浏览

java - sourceOrderingField 和 hoodie.datasource.write.precombine.field 有什么区别?

source-ordering-field作为 spark-submit 中的参数,同时hoodie.datasource.write.precombine.field通过 hudi config 设置。他们指的是相同的配置吗?如果这些值不同怎么办?

0 投票
0 回答
37 浏览

amazon-web-services - Apache Hudi 中的非法字符错误 - 胶水作业

我想使用 AWS Glue 和 Apache Hudi 删除 S3 中的一些行。当我执行以下作业时,遇到“调用 0128.save 时发生错误。非法字符:{database_name}_record”错误。我还尝试了插入和更新作业,并正确更新了 S3 中的数据。

有谁知道这个错误的原因,以及如何避免这种情况?

0 投票
1 回答
124 浏览

amazon-web-services - AWS Glue-如何在 s3 存储桶中仅输出 1 个最新文件

我使用 AWS Glue 和 Apache Hudi 将 RDS 中的数据复制到 S3。如果我执行以下作业,将在 S3 存储桶 (basePath) 中生成 2 个 parquet 文件(初始文件和更新文件)。在这种情况下,我只想要 1 个最新文件,并想删除旧文件。

有谁知道如何在存储桶中保留 1 个最新文件?

0 投票
0 回答
26 浏览

scala - 需要澄清 hoodie.datasource.hive_sync.mode 设置

Hudi 有一个配置hoodie.datasource.hive_sync.mode可能的值,如hms,jdbchiveql. 有人可以描述这些价值观是什么以及它们是如何工作的吗?是什么hms?怎么hiveql能换一个jdbc?(在我看来,它们是不同的技术)

0 投票
1 回答
162 浏览

apache-spark - 使用 HUDI 在 TRINO 上创建 TABLE 的示例

Spark Structured Streaming (3.1.1)用来从 S3 上读取数据KafkaHUDI (0.8.0)用作按日期对数据进行分区的存储系统。(这部分没有问题)

我希望使用Trino (355)能够查询该数据。hudi-presto-bundle-0.8.0.jar作为一个前诅咒者,我已经把/data/trino/hive/

我创建了一个具有以下架构的表

即使调用下面的函数,trino 也无法发现任何分区

我的评估是,我无法使用 hudi 在 trino 下创建表格,这主要是因为我无法在WITHOptions 下传递正确的值。我也无法在 HUDI 文档下找到创建表示例。

如果有人能给我一个例子,或者指出我正确的方向,如果我错过了什么,我将非常感激。

非常感谢帮助


小更新:尝试添加

但这会引发错误:

0 投票
0 回答
43 浏览

amazon-s3 - 一个脚本用于多个表在 hudi 中存储数据

我是 Apache hudi 的新手。我正在编写一个脚本来获取 s3 中从 aws catelog 到 apache hudi 的所有表。这是我尝试执行的自定义脚本。它没有显示错误,但不知何故列和缺失目标文件夹。

Tha 代码存储在 Hudi 中,但是当我尝试比较源列和目标列时。目标中的列不相似,其中一些列丢失了。你能帮我看看我做错了什么吗?有什么问题吗配置文件或代码问题。我有一个问题,如果我有多个主键并且有多个表要移动,你能帮我解决这个问题吗?

非常感谢你

0 投票
0 回答
23 浏览

hive - 手动提交 hudi 文件

我正在使用 spark 3.x 和 apache-hudi 0.8.0 版本。当我尝试使用hudi-hive-sync工具创建 presto 表时,我遇到了错误。

但是我使用 zepplin notebook 检查了所有数据的partitiionKeys,我看到了所有数据。

据了解,我需要手动提交文件。怎么做 ?

0 投票
0 回答
11 浏览

apache-hudi - 如何通过 Hudi CLI 更改 Hudi 表版本

如何通过 Hudi CLI 更改表格版本?

脚步:

  1. SSH 进入 EMR
  2. 启动 hudi cli /usr/lib/hudi/cli/bin/hudi-cli.sh。Hudi CLI 的版本是 1。
  3. 连接到我的桌子connect --path s3://bucket/db/table

在表的 desc 中,我看到它是 version=3,但我想使用Hudi 0.9.0写入表,所以我想将表设置为 version=2。