问题标签 [apache-hudi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 在 Spark 阅读器中,为了避免重复阅读 Hudi,格式选项是强制性的吗?
我最近开始使用 Hudi 在 S3 上存储一些数据集。编写数据集我正在使用 Glue 同步元数据以生成和维护一个表。
我正在开发基于 Hudi 数据集从表中读取的 Spark 作业(Java 中)。
我开始只是用古典读表session.read().table("table_name")
,当然工作失败了,说在类路径中找不到 Hudi 阅读器。
然后我将 Hudi 依赖项添加到我的 POM 中,它无需任何代码更改即可工作。
现在我在更大的输入样本上运行这项工作,我开始注意到一些异常情况。经过一些调试,这是由于输入重复。在同一时期重新运行作业最初并没有解决问题,但经过一些重试后,重复项消失了。
我假设这些重复项可能是由 Hudi 的错误配置生成的,这可能没有以正确的方式压缩。
我的问题是:在 Hudi 示例中,格式是明确配置的(如下)
虽然我没有设置format
选项。是否需要正确读取 Hudi 数据集?
amazon-emr - EMR 上的 HudiDeltastreamer 未将数据同步到 Glue
我正在使用胶水作为 hive 元存储启动 EMR。并且还启用了 hive-sync 以将数据同步到 Hive 元存储中。我的假设是这应该是在 Glue 目录中创建表。但是我们正在使用 apache livy 从 REST API 提交作业,即使用 livy 用户提交作业。由于我们使用的是 livy 用户,因此不确定我们是否需要进行任何更改。
如果我遗漏了什么,请告诉我。
amazon-web-services - AWS 分区 Hudi
我在 .csv 中有一个包含大约 180000000 条记录的数据集,我通过胶水作业在 hudi parquet 中进行了转换。它被一列分隔。它全部写入成功,但是在胶水作业中读取hudi数据需要太长时间(> 30min)。
我试图只读取一个分区
但没有区别。
我也尝试了增量读取,但它总是返回零记录。
我在该表上的 Athena 中的分区投影也有问题,分区的最小值是 200000,最大值是 3500000。当使用分区查询时,它工作正常,但没有它会给出错误:
HIVE_EXCEEDED_PARTITION_LIMIT:对表“表”的查询可能会读取超过 1000000 个分区
分区投影的 DDL:
如何减少 hudi 阅读时间和分区投影问题?
delta-lake - lakeFS、Hudi、Delta Lake 合并和合并冲突
我正在阅读有关lakeFS 的文档,现在还不清楚什么是合并甚至合并冲突就lakeFS 而言。
假设我使用 Apache Hudi 对单个表进行 ACID 支持。我想介绍多表 ACID 支持,为此我想将 LakeFS 与 Hudi 一起使用。
如果我正确理解了所有内容,那么lakeFS 是一个与数据无关的解决方案,并且对数据本身一无所知。LakeFS 仅建立边界(版本控制)并以某种方式调节对数据的并发访问。
所以合理的问题是 - 如果lakeFS 与数据无关,它如何支持合并操作?就lakeFS而言,合并本身意味着什么?那里有可能发生合并冲突吗?
apache-spark - 通过 apache livy 进行的 hudi delta 流媒体作业
请帮助如何将 --props 文件和 --source-class 文件传递给 LIVY API POST 。
apache-spark - EMR Hudi 无法创建 hive 连接 jdbc:hive2://localhost:10000/
尝试在启用配置单元同步的 Jupyter 笔记本中保存 hudi 表。我正在使用 EMR: 5.28.0 并启用 AWS Glue 作为目录:
收到以下错误:
amazon-web-services - 您能否运行具有多个 EMR 集群的事务性数据湖(Hudi、Delta Lake)
我正在研究几种“事务性数据湖”技术,例如 Apache Hudi、Delta Lake、AWS Lake Formation Governed Tables。
除了后者,我看不出它们在多集群环境中是如何工作的。我以 s3 为存储基准,并希望逐步更改我的数据湖,在任何给定时间,我可能有许多集群都从湖中读取和写入。这可能/支持吗?看起来压缩和事务过程是在集群上的。因此,您无法使用来自多个不同来源的这些平台来管理事务数据湖。还是我弄错了?
您发现的任何轶事或性能限制将不胜感激!
data-lake - 在 Apache Hudi 中,可以更新特定的提交时间吗?
我是 Apache Hudi 的新手。
当我更新 Hudi 表时,Hudi 会处理它,并且在当前时间戳上有提交时间。
如果我想更改旧版本的快照数据,我该怎么做?有什么选择吗?
如果可以更新具有特定提交时间(不是当前时间戳,例如:2 天前)的 Hudi 表,则可以更改旧版本的快照数据(不是最新版本)。
谢谢。
apache-spark - 如何访问 hudi 指标
如何以编程方式访问 Hudi 指标。提交后,我想获取更新的记录/插入的记录等指标并将它们记录到数据库中。
我尝试设置hoodie.metrics.on=true
和hoodie.metrics.reporter.type=INMEMORY
. 但是我怎样才能得到一个HoodieMetrics
包含实际信息的对象呢?
apache-spark - S3 中针对 Athena Hive Hudi 对象的 Redshift 查询错误——频谱扫描错误:断言代码:15005
我可以看到我试图在 Redshift 中查询的外部架构和其中的表。
当我对表运行一个简单的计数查询时,我收到以下错误:
我在网上搜索了错误,但没有找到太多。我可以检查的地方是否有其他日志,或者以前是否有人看到过此错误?