问题标签 [apache-hudi]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

70 问题

0 投票

0 回答

24 浏览

apache-spark - 在 Spark 阅读器中，为了避免重复阅读 Hudi，格式选项是强制性的吗？

我最近开始使用 Hudi 在 S3 上存储一些数据集。编写数据集我正在使用 Glue 同步元数据以生成和维护一个表。

我正在开发基于 Hudi 数据集从表中读取的 Spark 作业（Java 中）。

我开始只是用古典读表session.read().table("table_name")，当然工作失败了，说在类路径中找不到 Hudi 阅读器。

然后我将 Hudi 依赖项添加到我的 POM 中，它无需任何代码更改即可工作。

现在我在更大的输入样本上运行这项工作，我开始注意到一些异常情况。经过一些调试，这是由于输入重复。在同一时期重新运行作业最初并没有解决问题，但经过一些重试后，重复项消失了。

我假设这些重复项可能是由 Hudi 的错误配置生成的，这可能没有以正确的方式压缩。

我的问题是：在 Hudi 示例中，格式是明确配置的（如下）

虽然我没有设置format选项。是否需要正确读取 Hudi 数据集？

apache-spark aws-glue apache-hudi

2021-09-21T07:51:11.240

0 投票

0 回答

24 浏览

amazon-emr - EMR 上的 HudiDeltastreamer 未将数据同步到 Glue

我正在使用胶水作为 hive 元存储启动 EMR。并且还启用了 hive-sync 以将数据同步到 Hive 元存储中。我的假设是这应该是在 Glue 目录中创建表。但是我们正在使用 apache livy 从 REST API 提交作业，即使用 livy 用户提交作业。由于我们使用的是 livy 用户，因此不确定我们是否需要进行任何更改。

如果我遗漏了什么，请告诉我。

amazon-emr aws-glue aws-glue-data-catalog livy apache-hudi

2021-09-27T07:56:02.290

0 投票

0 回答

276 浏览

amazon-web-services - AWS 分区 Hudi

我在 .csv 中有一个包含大约 180000000 条记录的数据集，我通过胶水作业在 hudi parquet 中进行了转换。它被一列分隔。它全部写入成功，但是在胶水作业中读取hudi数据需要太长时间（> 30min）。

我试图只读取一个分区

但没有区别。

我也尝试了增量读取，但它总是返回零记录。

我在该表上的 Athena 中的分区投影也有问题，分区的最小值是 200000，最大值是 3500000。当使用分区查询时，它工作正常，但没有它会给出错误：

HIVE_EXCEEDED_PARTITION_LIMIT：对表“表”的查询可能会读取超过 1000000 个分区

分区投影的 DDL：

如何减少 hudi 阅读时间和分区投影问题？

amazon-web-services aws-glue amazon-athena apache-hudi

2021-10-01T11:39:30.617

0 投票

1 回答

305 浏览

delta-lake - lakeFS、Hudi、Delta Lake 合并和合并冲突

我正在阅读有关lakeFS 的文档，现在还不清楚什么是合并甚至合并冲突就lakeFS 而言。

假设我使用 Apache Hudi 对单个表进行 ACID 支持。我想介绍多表 ACID 支持，为此我想将 LakeFS 与 Hudi 一起使用。

如果我正确理解了所有内容，那么lakeFS 是一个与数据无关的解决方案，并且对数据本身一无所知。LakeFS 仅建立边界（版本控制）并以某种方式调节对数据的并发访问。

所以合理的问题是 - 如果lakeFS 与数据无关，它如何支持合并操作？就lakeFS而言，合并本身意味着什么？那里有可能发生合并冲突吗？

delta-lake data-lake apache-hudi lakefs data-lakehouse

2021-10-03T17:34:04.650

0 投票

1 回答

148 浏览

apache-spark - 通过 apache livy 进行的 hudi delta 流媒体作业

请帮助如何将 --props 文件和 --source-class 文件传递给 LIVY API POST 。

apache-spark spark-submit apache-hudi

2021-10-07T11:42:39.597

0 投票

1 回答

213 浏览

apache-spark - EMR Hudi 无法创建 hive 连接 jdbc:hive2://localhost:10000/

尝试在启用配置单元同步的 Jupyter 笔记本中保存 hudi 表。我正在使用 EMR: 5.28.0 并启用 AWS Glue 作为目录：

收到以下错误：

apache-spark pyspark amazon-emr aws-glue apache-hudi

2021-10-07T16:48:32.517

0 投票

0 回答

86 浏览

amazon-web-services - 您能否运行具有多个 EMR 集群的事务性数据湖（Hudi、Delta Lake）

我正在研究几种“事务性数据湖”技术，例如 Apache Hudi、Delta Lake、AWS Lake Formation Governed Tables。

除了后者，我看不出它们在多集群环境中是如何工作的。我以 s3 为存储基准，并希望逐步更改我的数据湖，在任何给定时间，我可能有许多集群都从湖中读取和写入。这可能/支持吗？看起来压缩和事务过程是在集群上的。因此，您无法使用来自多个不同来源的这些平台来管理事务数据湖。还是我弄错了？

您发现的任何轶事或性能限制将不胜感激！

amazon-web-services amazon-emr delta-lake apache-hudi

2021-10-16T02:19:46.733

0 投票

0 回答

70 浏览

data-lake - 在 Apache Hudi 中，可以更新特定的提交时间吗？

我是 Apache Hudi 的新手。

当我更新 Hudi 表时，Hudi 会处理它，并且在当前时间戳上有提交时间。

如果我想更改旧版本的快照数据，我该怎么做？有什么选择吗？

如果可以更新具有特定提交时间（不是当前时间戳，例如：2 天前）的 Hudi 表，则可以更改旧版本的快照数据（不是最新版本）。

谢谢。

data-lake apache-hudi

2021-11-01T05:17:22.813

0 投票

0 回答

36 浏览

apache-spark - 如何访问 hudi 指标

如何以编程方式访问 Hudi 指标。提交后，我想获取更新的记录/插入的记录等指标并将它们记录到数据库中。

我尝试设置hoodie.metrics.on=true和hoodie.metrics.reporter.type=INMEMORY. 但是我怎样才能得到一个HoodieMetrics包含实际信息的对象呢？

apache-spark hadoop apache-hudi

2021-11-08T07:34:01.627

0 投票

0 回答

40 浏览

apache-spark - S3 中针对 Athena Hive Hudi 对象的 Redshift 查询错误——频谱扫描错误：断言代码：15005

我可以看到我试图在 Redshift 中查询的外部架构和其中的表。

当我对表运行一个简单的计数查询时，我收到以下错误：

我在网上搜索了错误，但没有找到太多。我可以检查的地方是否有其他日志，或者以前是否有人看到过此错误？

apache-spark amazon-redshift hive-metastore apache-hudi

2021-11-12T15:09:08.447

1 2 3 4 5 6 7 8 9 10