问题标签 [apache-hudi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-hudi - [HUDI]在 HUDI 中创建仅附加原始数据
Raw (S3) --> Cleaned (HUDI, append only) ---> Standard (HUDI, upserts)
apache-spark - 用 Apache Hudi 编写的 Parquet 文件名的每个部分代表什么?
Apache Hudi 写出每个 parquet 文件,如下所示:
我试图了解文件的每个部分代表什么。这是我目前的理解,但我想得到任何可能知道的人的确认和澄清。
我不确定以下部分代表什么:
java - sourceOrderingField 和 hoodie.datasource.write.precombine.field 有什么区别?
source-ordering-field
作为 spark-submit 中的参数,同时hoodie.datasource.write.precombine.field
通过 hudi config 设置。他们指的是相同的配置吗?如果这些值不同怎么办?
amazon-web-services - Apache Hudi 中的非法字符错误 - 胶水作业
我想使用 AWS Glue 和 Apache Hudi 删除 S3 中的一些行。当我执行以下作业时,遇到“调用 0128.save 时发生错误。非法字符:{database_name}_record”错误。我还尝试了插入和更新作业,并正确更新了 S3 中的数据。
有谁知道这个错误的原因,以及如何避免这种情况?
amazon-web-services - AWS Glue-如何在 s3 存储桶中仅输出 1 个最新文件
我使用 AWS Glue 和 Apache Hudi 将 RDS 中的数据复制到 S3。如果我执行以下作业,将在 S3 存储桶 (basePath) 中生成 2 个 parquet 文件(初始文件和更新文件)。在这种情况下,我只想要 1 个最新文件,并想删除旧文件。
有谁知道如何在存储桶中保留 1 个最新文件?
scala - 需要澄清 hoodie.datasource.hive_sync.mode 设置
Hudi 有一个配置和hoodie.datasource.hive_sync.mode
可能的值,如hms
,jdbc
和hiveql
. 有人可以描述这些价值观是什么以及它们是如何工作的吗?是什么hms
?怎么hiveql
能换一个jdbc
?(在我看来,它们是不同的技术)
apache-spark - 使用 HUDI 在 TRINO 上创建 TABLE 的示例
我Spark Structured Streaming (3.1.1)
用来从 S3 上读取数据Kafka
并HUDI (0.8.0)
用作按日期对数据进行分区的存储系统。(这部分没有问题)
我希望使用Trino (355)
能够查询该数据。hudi-presto-bundle-0.8.0.jar
作为一个前诅咒者,我已经把/data/trino/hive/
我创建了一个具有以下架构的表
即使调用下面的函数,trino 也无法发现任何分区
我的评估是,我无法使用 hudi 在 trino 下创建表格,这主要是因为我无法在WITH
Options 下传递正确的值。我也无法在 HUDI 文档下找到创建表示例。
如果有人能给我一个例子,或者指出我正确的方向,如果我错过了什么,我将非常感激。
非常感谢帮助
小更新:尝试添加
但这会引发错误:
amazon-s3 - 一个脚本用于多个表在 hudi 中存储数据
我是 Apache hudi 的新手。我正在编写一个脚本来获取 s3 中从 aws catelog 到 apache hudi 的所有表。这是我尝试执行的自定义脚本。它没有显示错误,但不知何故列和缺失目标文件夹。
Tha 代码存储在 Hudi 中,但是当我尝试比较源列和目标列时。目标中的列不相似,其中一些列丢失了。你能帮我看看我做错了什么吗?有什么问题吗配置文件或代码问题。我有一个问题,如果我有多个主键并且有多个表要移动,你能帮我解决这个问题吗?
非常感谢你
hive - 手动提交 hudi 文件
我正在使用 spark 3.x 和 apache-hudi 0.8.0 版本。当我尝试使用hudi-hive-sync工具创建 presto 表时,我遇到了错误。
但是我使用 zepplin notebook 检查了所有数据的partitiionKeys,我看到了所有数据。
据了解,我需要手动提交文件。怎么做 ?
apache-hudi - 如何通过 Hudi CLI 更改 Hudi 表版本
如何通过 Hudi CLI 更改表格版本?
脚步:
- SSH 进入 EMR
- 启动 hudi cli
/usr/lib/hudi/cli/bin/hudi-cli.sh
。Hudi CLI 的版本是 1。 - 连接到我的桌子
connect --path s3://bucket/db/table
在表的 desc 中,我看到它是 version=3,但我想使用Hudi 0.9.0写入表,所以我想将表设置为 version=2。