问题标签 [apache-hudi]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

70 问题

0 投票

0 回答

21 浏览

apache-hudi - [HUDI]在 HUDI 中创建仅附加原始数据

Raw (S3) --> Cleaned (HUDI, append only) ---> Standard (HUDI, upserts)

apache-hudi

2021-11-16T13:02:57.773

0 投票

1 回答

48 浏览

apache-spark - 用 Apache Hudi 编写的 Parquet 文件名的每个部分代表什么？

Apache Hudi 写出每个 parquet 文件，如下所示：

我试图了解文件的每个部分代表什么。这是我目前的理解，但我想得到任何可能知道的人的确认和澄清。

我不确定以下部分代表什么：

apache-spark parquet apache-hudi

2021-11-17T19:54:06.967

0 投票

0 回答

50 浏览

java - sourceOrderingField 和 hoodie.datasource.write.precombine.field 有什么区别？

source-ordering-field作为 spark-submit 中的参数，同时hoodie.datasource.write.precombine.field通过 hudi config 设置。他们指的是相同的配置吗？如果这些值不同怎么办？

java scala apache-spark apache-hudi

2021-11-18T10:40:54.537

0 投票

0 回答

37 浏览

amazon-web-services - Apache Hudi 中的非法字符错误 - 胶水作业

我想使用 AWS Glue 和 Apache Hudi 删除 S3 中的一些行。当我执行以下作业时，遇到“调用 0128.save 时发生错误。非法字符：{database_name}_record”错误。我还尝试了插入和更新作业，并正确更新了 S3 中的数据。

有谁知道这个错误的原因，以及如何避免这种情况？

amazon-web-services amazon-s3 aws-glue apache-hudi

2021-11-29T07:18:17.093

0 投票

1 回答

124 浏览

amazon-web-services - AWS Glue-如何在 s3 存储桶中仅输出 1 个最新文件

我使用 AWS Glue 和 Apache Hudi 将 RDS 中的数据复制到 S3。如果我执行以下作业，将在 S3 存储桶 (basePath) 中生成 2 个 parquet 文件（初始文件和更新文件）。在这种情况下，我只想要 1 个最新文件，并想删除旧文件。

有谁知道如何在存储桶中保留 1 个最新文件？

amazon-web-services amazon-s3 aws-glue apache-hudi

2021-11-30T11:06:04.513

0 投票

0 回答

26 浏览

scala - 需要澄清 hoodie.datasource.hive_sync.mode 设置

Hudi 有一个配置和hoodie.datasource.hive_sync.mode可能的值，如hms,jdbc和hiveql. 有人可以描述这些价值观是什么以及它们是如何工作的吗？是什么hms？怎么hiveql能换一个jdbc？（在我看来，它们是不同的技术）

scala apache-spark apache-hudi

2021-12-11T09:34:59.237

0 投票

1 回答

162 浏览

apache-spark - 使用 HUDI 在 TRINO 上创建 TABLE 的示例

我Spark Structured Streaming (3.1.1)用来从 S3 上读取数据Kafka并HUDI (0.8.0)用作按日期对数据进行分区的存储系统。（这部分没有问题）

我希望使用Trino (355)能够查询该数据。hudi-presto-bundle-0.8.0.jar作为一个前诅咒者，我已经把/data/trino/hive/

我创建了一个具有以下架构的表

即使调用下面的函数，trino 也无法发现任何分区

我的评估是，我无法使用 hudi 在 trino 下创建表格，这主要是因为我无法在WITHOptions 下传递正确的值。我也无法在 HUDI 文档下找到创建表示例。

如果有人能给我一个例子，或者指出我正确的方向，如果我错过了什么，我将非常感激。

非常感谢帮助

小更新：尝试添加

但这会引发错误：

apache-spark create-table trino apache-hudi

2021-12-23T10:19:27.250

0 投票

0 回答

43 浏览

amazon-s3 - 一个脚本用于多个表在 hudi 中存储数据

我是 Apache hudi 的新手。我正在编写一个脚本来获取 s3 中从 aws catelog 到 apache hudi 的所有表。这是我尝试执行的自定义脚本。它没有显示错误，但不知何故列和缺失目标文件夹。

Tha 代码存储在 Hudi 中，但是当我尝试比较源列和目标列时。目标中的列不相似，其中一些列丢失了。你能帮我看看我做错了什么吗？有什么问题吗配置文件或代码问题。我有一个问题，如果我有多个主键并且有多个表要移动，你能帮我解决这个问题吗？

非常感谢你

amazon-s3 pyspark aws-glue composite-primary-key apache-hudi

2022-01-06T21:21:58.633

0 投票

0 回答

23 浏览

hive - 手动提交 hudi 文件

我正在使用 spark 3.x 和 apache-hudi 0.8.0 版本。当我尝试使用hudi-hive-sync工具创建 presto 表时，我遇到了错误。

但是我使用 zepplin notebook 检查了所有数据的partitiionKeys，我看到了所有数据。

据了解，我需要手动提交文件。怎么做？

hive presto apache-hudi

2022-01-21T01:41:14.083

0 投票

0 回答

11 浏览

apache-hudi - 如何通过 Hudi CLI 更改 Hudi 表版本

如何通过 Hudi CLI 更改表格版本？

脚步：

SSH 进入 EMR
启动 hudi cli /usr/lib/hudi/cli/bin/hudi-cli.sh。Hudi CLI 的版本是 1。
连接到我的桌子connect --path s3://bucket/db/table

在表的 desc 中，我看到它是 version=3，但我想使用Hudi 0.9.0写入表，所以我想将表设置为 version=2。

apache-hudi

2022-03-02T17:33:05.627

1 2 3 4 5 6 7 8 9 10