问题标签 [apache-hudi]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

70 问题

0 投票

1 回答

617 浏览

apache-spark - 火花提交错误：java.util.NoSuchElementException：spark.scheduler.mode

我正在尝试在 Ubuntu 16.04 服务器上设置 Apache Hudi。我克隆了 repo https://github.com/apache/incubator-hudi.git然后将其构建为

构建成功完成。

然后我通过https://hudi.incubator.apache.org/docker_demo.html继续进行测试

当我尝试执行

我得到输出

由于声誉不足，我无法在问题中添加 incubator-hudi 标签。
感谢帮助

apache-spark ubuntu-16.04 apache-hudi

2019-06-20T05:54:49.037

0 投票

1 回答

993 浏览

apache-spark - 使用 Apache Hudi 构建 Spark 结构化流

我有一个要求，我需要使用结构化流将流写入 Hudi 数据集。我发现有一项针对 Apache Hudi Jira 问题的规定，但想知道是否有人成功实现了这一点并有一个例子。我正在尝试使用 spark 结构化流将数据从 AWS Kinesis Firehose 结构化流到 Apache Hudi

快速帮助表示赞赏。

apache-spark streaming spark-structured-streaming apache-hudi

2019-08-14T12:28:04.903

0 投票

1 回答

570 浏览

apache-spark-sql - 存储到 S3 时 Apache Hudi 抛出 Dataset not found 异常

我正在尝试将一个简单的数据框作为 Hudi 数据集加载到 S3 中，但我在这样做时遇到了麻烦。我是 Apache Hudi 的新手，我试图通过在我的 Windows 机器上本地运行代码来加载数据。我用来实现这一点的所有 Maven 依赖项以及代码以及异常都在下面提到

除此之外，我没有做任何其他事情。我只是直接从我的 Spark 数据源代码创建一个 Hudi 数据集。我看到创建了 S3 路径的文件夹，但下面没有提到任何进一步的 .hoodie.properties 文件

apache-spark-sql apache-hudi

2019-09-16T06:16:19.320

0 投票

2 回答

970 浏览

apache-spark - 具有自定义格式的 Apache Hudi 分区

我目前正在Hudi使用 spark(scala) 在 Apache 上进行 POC。

我在使用分区保存数据框时遇到问题。

Hudipath/valueOfPartitionCol1/valueOfPartitionCol2.... 使用属性保存数据框PARTITIONPATH_FIELD_OPT_KEY。

但我的要求path/COL1=value/COL2=value....类似于 spark 使用partitionBy().

任何尝试过自定义分区的人都Hudi可以帮助我吗？

apache-spark apache-hudi

2019-12-16T12:25:56.543

0 投票

1 回答

1958 浏览

apache-spark - Spark 流 - 原因：org.apache.parquet.io.ParquetDecodingException：无法读取文件中块 0 中 1 处的值

我使用 spark 将我的 json 数据写入 s3。但是，我不断收到以下错误。我们正在使用 apache hudi 进行更新。这只发生在某些数据上，其他一切正常。

我无法理解。我关注了几个线程并在我的 spark confs 中设置了 --conf "spark.sql.parquet.writeLegacyFormat=true" 。但这也无济于事。

apache-spark spark-streaming parquet hoodie apache-hudi

2019-12-26T19:55:53.543

0 投票

1 回答

1262 浏览

apache-spark - 运行 Apache Hudi deltastreamer 时出错

我试图在 AWS EMR 上运行 Hudi deltastreamer。按照此博客中的步骤操作。https://cwiki.apache.org/confluence/pages/viewrecentblogposts.action?key=HUDI

但是当我运行下面的火花提交时，错误来了：

我运行的命令如下：

请帮忙。

apache-spark spark-streaming parquet apache-hudi

2020-01-31T15:02:03.897

0 投票

1 回答

770 浏览

apache-spark - presto with hudi - 从表中选择 *

我有一个使用 hudi 从 spark kinesis 流中创建并存储在 S3 中的镶木地板记录。

从此记录生成 AWS 粘合表。org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat我按照说明将 InputRecord 类型更新为https://cwiki.apache.org/confluence/display/HUDI/Migration+Guide+From+com.uber.hoodie+to+org.apache.hudi

从我运行的 presto-cli

这返回

但是当我跑步时

它返回

这是预期的行为吗？或者 Hudi/AWS Glue/Presto 之间的设置是否存在潜在问题

2020 年 2 月 12 日更新

使用 --debug 选项的堆栈跟踪

apache-spark aws-glue presto apache-hudi

2020-02-11T18:56:36.150

0 投票

1 回答

2800 浏览

pyspark - 将 Apache Hudi 与 Python/Pyspark 一起使用

有人在 Pyspark 环境中使用过 Apache Hudi 吗？如果可能，是否有可用的代码示例？

pyspark apache-hudi

2020-03-30T13:25:07.000

0 投票

1 回答

212 浏览

apache-spark - 当前摄取的 Apache Hudi 提交 ID

如何获取当前的摄取提交 ID。我知道 HoodieDataSourceHelpers.latestCommit 方法可以用来查找最新的提交。但是如果在不同的线程中有并发写入会发生什么。我需要找到每个线程的 commitID

apache-spark apache-hudi

2020-05-29T13:18:11.150

0 投票

2 回答

1383 浏览

apache-spark - 在进行 upsert 时，火花 Hudi Job 中的记录键中超过 1 列

我目前正在 deltalake 上进行 POC，在那里我遇到了这个名为 Apache Hudi 的框架。以下是我尝试使用 apache spark 框架编写的数据。

所以我想使用记录键作为专辑 ID 和轨道 ID 进行更新插入。所以我尝试使用以下代码进行初始插入（albumDf 是从上面的 INITIAL_ALBUM_DATA 创建的数据帧）：

但似乎它没有用多个键写。我在上面运行时遇到的错误是：

有没有人用多个键尝试过？当我尝试使用单键 trackId 或 albumId 时，它可以作为魅力，但使用 2 个键会失败。目前我正在使用 Hudi 的 0.5.3 和 scala 的 2.11 版本，火花为 2.4.x。我也尝试过 Hudi 的 0.5.2-incubating/0.6.0。

apache-spark apache-spark-sql apache-hudi

2020-08-29T10:30:55.850

1 2 3 4 5 6 7 8 9 10