问题标签 [apache-hudi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 火花提交错误:java.util.NoSuchElementException:spark.scheduler.mode
我正在尝试在 Ubuntu 16.04 服务器上设置 Apache Hudi。我克隆了 repo https://github.com/apache/incubator-hudi.git然后将其构建为
构建成功完成。
然后我通过https://hudi.incubator.apache.org/docker_demo.html继续进行测试
当我尝试执行
我得到输出
由于声誉不足,我无法在问题中添加 incubator-hudi 标签。
感谢帮助
apache-spark - 使用 Apache Hudi 构建 Spark 结构化流
我有一个要求,我需要使用结构化流将流写入 Hudi 数据集。我发现有一项针对 Apache Hudi Jira 问题的规定,但想知道是否有人成功实现了这一点并有一个例子。我正在尝试使用 spark 结构化流将数据从 AWS Kinesis Firehose 结构化流到 Apache Hudi
快速帮助表示赞赏。
apache-spark-sql - 存储到 S3 时 Apache Hudi 抛出 Dataset not found 异常
我正在尝试将一个简单的数据框作为 Hudi 数据集加载到 S3 中,但我在这样做时遇到了麻烦。我是 Apache Hudi 的新手,我试图通过在我的 Windows 机器上本地运行代码来加载数据。我用来实现这一点的所有 Maven 依赖项以及代码以及异常都在下面提到
除此之外,我没有做任何其他事情。我只是直接从我的 Spark 数据源代码创建一个 Hudi 数据集。我看到创建了 S3 路径的文件夹,但下面没有提到任何进一步的 .hoodie.properties 文件
apache-spark - 具有自定义格式的 Apache Hudi 分区
我目前正在Hudi
使用 spark(scala) 在 Apache 上进行 POC。
我在使用分区保存数据框时遇到问题。
Hudipath/valueOfPartitionCol1/valueOfPartitionCol2....
使用属性保存数据框PARTITIONPATH_FIELD_OPT_KEY
。
但我的要求path/COL1=value/COL2=value....
类似于 spark 使用partitionBy()
.
任何尝试过自定义分区的人都Hudi
可以帮助我吗?
apache-spark - Spark 流 - 原因:org.apache.parquet.io.ParquetDecodingException:无法读取文件中块 0 中 1 处的值
我使用 spark 将我的 json 数据写入 s3。但是,我不断收到以下错误。我们正在使用 apache hudi 进行更新。这只发生在某些数据上,其他一切正常。
我无法理解。我关注了几个线程并在我的 spark confs 中设置了 --conf "spark.sql.parquet.writeLegacyFormat=true" 。但这也无济于事。
apache-spark - 运行 Apache Hudi deltastreamer 时出错
我试图在 AWS EMR 上运行 Hudi deltastreamer。按照此博客中的步骤操作。https://cwiki.apache.org/confluence/pages/viewrecentblogposts.action?key=HUDI
但是当我运行下面的火花提交时,错误来了:
我运行的命令如下:
请帮忙。
apache-spark - presto with hudi - 从表中选择 *
我有一个使用 hudi 从 spark kinesis 流中创建并存储在 S3 中的镶木地板记录。
从此记录生成 AWS 粘合表。org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat
我按照说明将 InputRecord 类型更新为https://cwiki.apache.org/confluence/display/HUDI/Migration+Guide+From+com.uber.hoodie+to+org.apache.hudi
从我运行的 presto-cli
这返回
但是当我跑步时
它返回
这是预期的行为吗?或者 Hudi/AWS Glue/Presto 之间的设置是否存在潜在问题
2020 年 2 月 12 日更新
使用 --debug 选项的堆栈跟踪
pyspark - 将 Apache Hudi 与 Python/Pyspark 一起使用
有人在 Pyspark 环境中使用过 Apache Hudi 吗?如果可能,是否有可用的代码示例?
apache-spark - 当前摄取的 Apache Hudi 提交 ID
如何获取当前的摄取提交 ID。我知道 HoodieDataSourceHelpers.latestCommit 方法可以用来查找最新的提交。但是如果在不同的线程中有并发写入会发生什么。我需要找到每个线程的 commitID
apache-spark - 在进行 upsert 时,火花 Hudi Job 中的记录键中超过 1 列
我目前正在 deltalake 上进行 POC,在那里我遇到了这个名为 Apache Hudi 的框架。以下是我尝试使用 apache spark 框架编写的数据。
所以我想使用记录键作为专辑 ID 和轨道 ID 进行更新插入。所以我尝试使用以下代码进行初始插入(albumDf 是从上面的 INITIAL_ALBUM_DATA 创建的数据帧):
但似乎它没有用多个键写。我在上面运行时遇到的错误是:
有没有人用多个键尝试过?当我尝试使用单键 trackId 或 albumId 时,它可以作为魅力,但使用 2 个键会失败。目前我正在使用 Hudi 的 0.5.3 和 scala 的 2.11 版本,火花为 2.4.x。我也尝试过 Hudi 的 0.5.2-incubating/0.6.0。