问题标签 [apache-hudi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Apache Hudi deltastreamer 在线程“主”org.apache.hudi.com.beust.jcommander.ParameterException' 中抛出异常,没有定义主参数
版本 Apache Hudi 0.6.1,Spark 2.4.6
下面是 Hudi deltastreamer 的标准 spark-submit 命令,因为没有定义主要参数,所以它正在抛出。我可以看到所有的属性参数都给出了。感谢对此错误的任何帮助。
amazon-web-services - 安装 Hudi 版本。AWS EMR 上的 0.6.0
谁能帮我在 AWS EMR 版本 6.0.0 上正确安装 Hudi 0.6.0 吗?我认为 AWS 添加了一些自定义脚本以使 Hudi 在 EMR 中正常工作
schema - Apache Hudi 模式演变
任何人都可以分享在 apache hudi 中处理模式更改的正确方法吗?示例:将列从 col1 重命名为 col2 或将数据类型从 long 更改为 int。(皮斯帕克)
apache-spark - 无法使用 Apache Hudi 写入非分区表
我正在使用 Apache Hudi 将非分区表写入 AWS S3 并将其同步到配置单元。这是DataSourceWriteOptions
正在使用的。
如果分区表正在成功写入,但如果我尝试写入非分区表,则会出错。这是错误输出片段
这是代码HoodieInputFormatUtils.getTableMetaClientForBasePath()
第 283 行LOG.info()
是导致 NullPointerException 的原因。所以看起来为分区提供的配置值已经搞砸了。此代码正在 AWS EMR 上运行。
classpath - Databricks - java.lang.NoClassDefFoundError: org/json/JSONException
我们无法弄清楚以下问题:我们正在尝试使用 Apache Hudi 将数据保存到存储中。问题是当我们上传一个在依赖项中包含 org.json 包的胖 jar 时,df.save()
应用程序失败了
即使我转到集群库并显式添加此依赖项,它仍然无法保存。另一方面,当我刚刚new JSONException("hello")
在笔记本中创建时,一切似乎都运行良好。什么可能导致这种行为?谢谢
apache-flink - Flink 的 hive 流与 iceberg/hudi/delta
有一些开源的datake解决方案支持crud/acid/incremental pull,例如Iceberg、Hudi、Delta。我认为他们已经做了 flink 的 Hive Streaming 想做的事情,甚至做得更好,
所以,我想问一下,flink 的 hive 流的真正力量比 flink+iceberg/flink+hudi 提供了什么。也许 flink+iceberg 或 flink+hudi 目前还没有成熟,但这不是一个大问题,它们会是很快成熟。
apache-kafka - Debezium + Schema Registry Avro Schema:为什么我有“之前”和“之后”字段,以及如何将其与 HudiDeltaStreamer 一起使用?
我在 PostgreSQL 中有一个具有以下模式的表:
当我为这个使用io.confluent.connect.avro.AvroConverter
Schema Registry 的表运行 Debezium 源连接器时,它会创建一个看起来像这样的 Schema Registry 模式(这里省略了一些字段):
我的 Kafka 主题中由 Debezium 生成的消息如下所示(省略了某些字段):
当我插入或更新时,"before"
总是null
,并且"after"
包含我的数据;当我删除时,反之亦然:"after"
为空并"before"
包含数据(尽管所有字段都设置为默认值)。
问题 #1:为什么 Kafka Connect 使用"before"
和"after"
字段创建模式?为什么这些领域的行为如此奇怪?
问题 #2:是否有一种内置方法可以让 Kafka Connect在仍然使用 Schema Registry 的同时向我的主题发送平面消息?请注意,Flatten变换不是我需要的:如果启用,我仍将拥有"before"
and"after"
字段。
问题 #3(实际上并不希望得到任何东西,但也许有人知道):扁平化我的消息的必要性来自于我需要使用HudiDeltaStreamer从我的主题中读取数据,而且这个工具似乎需要扁平化的输入数据。和字段最终在生成的 .parquet 文件中成为单独的类似对象"before"
的列。有谁知道 HudiDeltaStreamer 应该如何与 Kafka Connect 生成的消息集成?"after"
scala - Hudi:在嵌入式模式下访问时间服务器超时
我正在测试 Hudi 0.5.3(由 AWS Athena 支持),方法是在嵌入式模式下使用 Spark 运行它,即使用单元测试。起初测试成功,但现在由于访问 Hudi 的时间服务器时超时而失败。
以下内容基于Hudi:入门指南。
火花会话设置:
导致超时异常的代码:
超时和异常抛出:
我无法为 Hudi 时间服务器端口尝试不同的端口设置,因为我无法找到控制端口的配置设置。
任何想法为什么访问时间服务器超时?
apache-spark - Spark-Hudi:另存为表到 Glue/Hive 目录
场景:
使用方法存储 Hudi Spark 数据帧saveAsTable(data frame writer)
,这样Hudi 支持的带有 org.apache.hudi.hadoop.HoodieParquetInputFormat
Input 格式 schema 的表就会自动生成。
目前,saveAsTable
正常(非 Hudi 表)可以正常工作,生成默认输入格式。我想使用支持的输入文件格式自动创建 Hudi 表,或者使用某些覆盖版本saveAsTable
或其他方式保持在 spark 的前提下。
apache-spark - spark-shell 的 Apache Hudi 示例为 Spark 2.3.0 引发错误
我正在尝试使用 spark-shell运行此示例( https://hudi.apache.org/docs/quick-start-guide.html )。Apache Hudi 文档说“Hudi 与 Spark-2.x 版本一起工作”环境详细信息是:
平台:HDP 2.6.5.0-292 Spark 版本:2.3.0.2.6.5.279-2 Scala 版本:2.11.8
我正在使用以下 spark-shell 命令(注意 - spark-avro 版本不完全匹配,因为我找不到 Spark 2.3.2 的相应 spark-avro 依赖项)
当我尝试写入数据时,出现以下错误:
对我来说,看起来正确的 avro 版本没有添加到类路径中或被拾取。任何人都可以建议解决方法吗?我被困在这很长一段时间了。