问题标签 [apache-hudi]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

70 问题

0 投票

1 回答

632 浏览

apache-spark - Apache Hudi deltastreamer 在线程“主”org.apache.hudi.com.beust.jcommander.ParameterException' 中抛出异常，没有定义主参数

版本 Apache Hudi 0.6.1，Spark 2.4.6

下面是 Hudi deltastreamer 的标准 spark-submit 命令，因为没有定义主要参数，所以它正在抛出。我可以看到所有的属性参数都给出了。感谢对此错误的任何帮助。

0 投票

2 回答

169 浏览

amazon-web-services - 安装 Hudi 版本。AWS EMR 上的 0.6.0

谁能帮我在 AWS EMR 版本 6.0.0 上正确安装 Hudi 0.6.0 吗？我认为 AWS 添加了一些自定义脚本以使 Hudi 在 EMR 中正常工作

amazon-web-services amazon-emr apache-hudi

0 投票

1 回答

599 浏览

schema - Apache Hudi 模式演变

任何人都可以分享在 apache hudi 中处理模式更改的正确方法吗？示例：将列从 col1 重命名为 col2 或将数据类型从 long 更改为 int。（皮斯帕克）

schema apache-hudi

0 投票

0 回答

647 浏览

apache-spark - 无法使用 Apache Hudi 写入非分区表

我正在使用 Apache Hudi 将非分区表写入 AWS S3 并将其同步到配置单元。这是DataSourceWriteOptions正在使用的。

如果分区表正在成功写入，但如果我尝试写入非分区表，则会出错。这是错误输出片段

这是代码HoodieInputFormatUtils.getTableMetaClientForBasePath()

第 283 行LOG.info()是导致 NullPointerException 的原因。所以看起来为分区提供的配置值已经搞砸了。此代码正在 AWS EMR 上运行。

apache-spark hadoop hive apache-hudi

0 投票

3 回答

426 浏览

classpath - Databricks - java.lang.NoClassDefFoundError: org/json/JSONException

我们无法弄清楚以下问题：我们正在尝试使用 Apache Hudi 将数据保存到存储中。问题是当我们上传一个在依赖项中包含 org.json 包的胖 jar 时，df.save() 应用程序失败了

即使我转到集群库并显式添加此依赖项，它仍然无法保存。另一方面，当我刚刚new JSONException("hello")在笔记本中创建时，一切似乎都运行良好。什么可能导致这种行为？谢谢

classpath databricks azure-databricks apache-hudi

0 投票

0 回答

281 浏览

apache-flink - Flink 的 hive 流与 iceberg/hudi/delta

有一些开源的datake解决方案支持crud/acid/incremental pull，例如Iceberg、Hudi、Delta。我认为他们已经做了 flink 的 Hive Streaming 想做的事情，甚至做得更好，

所以，我想问一下，flink 的 hive 流的真正力量比 flink+iceberg/flink+hudi 提供了什么。也许 flink+iceberg 或 flink+hudi 目前还没有成熟，但这不是一个大问题，它们会是很快成熟。

apache-flink delta-lake apache-hudi iceberg

0 投票

0 回答

390 浏览

apache-kafka - Debezium + Schema Registry Avro Schema：为什么我有“之前”和“之后”字段，以及如何将其与 HudiDeltaStreamer 一起使用？

我在 PostgreSQL 中有一个具有以下模式的表：

当我为这个使用io.confluent.connect.avro.AvroConverterSchema Registry 的表运行 Debezium 源连接器时，它会创建一个看起来像这样的 Schema Registry 模式（这里省略了一些字段）：

我的 Kafka 主题中由 Debezium 生成的消息如下所示（省略了某些字段）：

当我插入或更新时，"before"总是null，并且"after"包含我的数据；当我删除时，反之亦然："after"为空并"before"包含数据（尽管所有字段都设置为默认值）。

问题 #1：为什么 Kafka Connect 使用"before"和"after"字段创建模式？为什么这些领域的行为如此奇怪？

问题 #2：是否有一种内置方法可以让 Kafka Connect在仍然使用 Schema Registry 的同时向我的主题发送平面消息？请注意，Flatten变换不是我需要的：如果启用，我仍将拥有"before"and"after"字段。

问题 #3（实际上并不希望得到任何东西，但也许有人知道）：扁平化我的消息的必要性来自于我需要使用HudiDeltaStreamer从我的主题中读取数据，而且这个工具似乎需要扁平化的输入数据。和字段最终在生成的 .parquet 文件中成为单独的类似对象"before"的列。有谁知道 HudiDeltaStreamer 应该如何与 Kafka Connect 生成的消息集成？"after"

apache-kafka apache-kafka-connect confluent-schema-registry debezium apache-hudi

0 投票

1 回答

138 浏览

scala - Hudi：在嵌入式模式下访问时间服务器超时

我正在测试 Hudi 0.5.3（由 AWS Athena 支持），方法是在嵌入式模式下使用 Spark 运行它，即使用单元测试。起初测试成功，但现在由于访问 Hudi 的时间服务器时超时而失败。

以下内容基于Hudi：入门指南。

火花会话设置：

导致超时异常的代码：

超时和异常抛出：

我无法为 Hudi 时间服务器端口尝试不同的端口设置，因为我无法找到控制端口的配置设置。

任何想法为什么访问时间服务器超时？

scala apache-spark apache-hudi

0 投票

1 回答

475 浏览

apache-spark - Spark-Hudi：另存为表到 Glue/Hive 目录

场景： 使用方法存储 Hudi Spark 数据帧saveAsTable(data frame writer)，这样Hudi 支持的带有 org.apache.hudi.hadoop.HoodieParquetInputFormatInput 格式 schema 的表就会自动生成。

目前，saveAsTable正常（非 Hudi 表）可以正常工作，生成默认输入格式。我想使用支持的输入文件格式自动创建 Hudi 表，或者使用某些覆盖版本saveAsTable或其他方式保持在 spark 的前提下。

apache-spark pyspark hive aws-glue apache-hudi

0 投票

1 回答

1120 浏览

apache-spark - spark-shell 的 Apache Hudi 示例为 Spark 2.3.0 引发错误

我正在尝试使用 spark-shell运行此示例（ https://hudi.apache.org/docs/quick-start-guide.html ）。Apache Hudi 文档说“Hudi 与 Spark-2.x 版本一起工作”环境详细信息是：

平台：HDP 2.6.5.0-292 Spark 版本：2.3.0.2.6.5.279-2 Scala 版本：2.11.8

我正在使用以下 spark-shell 命令（注意 - spark-avro 版本不完全匹配，因为我找不到 Spark 2.3.2 的相应 spark-avro 依赖项）

当我尝试写入数据时，出现以下错误：

对我来说，看起来正确的 avro 版本没有添加到类路径中或被拾取。任何人都可以建议解决方法吗？我被困在这很长一段时间了。

apache-spark avro spark-avro spark-shell apache-hudi

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-hudi]

Reference