问题标签 [apache-hudi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
97 浏览

amazon-web-services - 插入 Hudi Table 时 SdkInterruptedException 导致的消费记录出错

我有这个从迁移中创建的 Hudi 表,所以它有数十亿行。迁移时没有问题,但是当我开始流式传输以开始将新数据写入此表时,发生了以下错误:

在此处输入图像描述

我对另一个迁移的表做了同样的事情,没有问题。两个表之间的唯一区别是分区。

执行在 AWS 上进行并使用 Hudi 0.5.3。

你们中有人遇到过这个问题吗?不确定这是 Hudi 还是 AWS 问题。

0 投票
0 回答
287 浏览

pyspark - Hudi元数据表可以查询吗?

在浏览 Hudi 文档时,我看到了Metadata Config部分,并对它的使用方式感到好奇。我创建了一个启用元数据的表,并且在/.hoodie/metadata. 有人试过这个功能吗?元数据是向 Hudi 公开还是仅在内部使用?它是干什么用的?我无法从文档中理解它。

我使用以下 Hudi 选项使用 PySpark 在 S3 中创建表。

谢谢一米。

0 投票
0 回答
100 浏览

apache-hudi - 在 Java 客户端中使用 Apache hudi 库

我是hudi新手。我想知道是否可以直接从 java 客户端使用 Hudi 客户端库来写入 Amazon S3 文件夹。我正在尝试构建一个可以存储大量编号的系统。高达 50k/秒的事件将从由 10 多个组件组成的分布式系统发出。我想知道是否可以使用 Hudi 客户端库构建一个简单的客户端来缓冲这些数据,然后定期将其写入 Hudi 数据存储区?

0 投票
2 回答
452 浏览

apache-spark - 无法创建 hive 连接 jdbc:hive2://localhost:10000。集群模式下的 spark-submit

我在 Apache Spark 上运行 Apache Hudi 应用程序。当我在客户端模式下提交应用程序时,它工作正常,但是当我在集群模式下提交应用程序时,出现错误

0 投票
1 回答
286 浏览

apache-spark - 读取 orc 文件时,最新版本的 Hudi(0.7.0、0.6.0)是否可以与 Spark 2.3.0 一起使用?

文档说:Hudi 适用于 Spark-2.x 和 Spark 3.x 版本。(https://hudi.apache.org/docs/quick-start-guide.html)但我无法将 hudi-spark-bundle_2.11 版本 0.7.0 与 Spark 2.3.0 和 Scala 2.11.12 一起使用. 是否有任何特定的 spark_avro 包必须使用?

作业失败并出现以下错误: java.lang.NoSuchMethodError: org.apache.spark.sql.types.Decimal$.minBytesForPrecision()[I 任何输入都会非常有帮助。

在我正在使用的集群中,我们有 Spark 2.3.0,并且没有立即升级的计划。想检查是否有任何方法可以使 Hudi 0.7.0 与 Spark 2.3.0 一起使用?

注意:我可以将 Spark 2.3.0 与 hudi-spark-bundle-0.5.0-incubating.jar 一起使用

在 spark-shell 我收到以下错误:

0 投票
2 回答
278 浏览

apache-spark - 使用 Avro Schema 将 Hudi 与 Kafka 集成的问题

我正在尝试将 Hudi 与 Kafka 主题集成。

遵循的步骤:

  1. 使用模式注册表中定义的模式在 Confluent 中创建 Kafka 主题。
  2. 使用 kafka-avro-console-producer,我正在尝试生成数据。
  3. 以连续模式运行 Hudi Delta Streamer 以使用数据。

基础设施 :

  1. AWS 电子病历
  2. 火花 2.4.4
  3. Hudi 实用程序(尝试使用 0.6.0 和 0.7.0)
  4. Avro(尝试过 avro-1.8.2、avro-1.9.2 和 avro-1.10.0)

我收到以下错误堆栈跟踪。有人可以帮我解决这个问题吗?

0 投票
0 回答
221 浏览

apache-spark - 使用即时时间读取 Spark Datasource Hudi 表

我正在使用Spark.read.format("hudi")读取 Hudi 表

想了解这个选项是如何工作的hoodie.datasource.read.begin.instanttime 它是否类似于 parquets 文件中提供的 hudi 的 hoodie_commit_ts 列?

无法使用 hoodie_commit_ts 列和以下方法在同一 hudi 路径顶部的外部表之间获得相同的计数。

示例代码在这里

开始时间 = '20201201194517'

incremental_read_options = {'hoodie.datasource.query.type':'增量','hoodie.datasource.read.begin.instanttime':beginTime}

Incremental_DF = spark.read.format("org.apache.hudi")。
选项(**incremental_read_options)。
加载()

0 投票
1 回答
2118 浏览

apache-spark - 在 Apache Hudi 表中编写 spark DataFrame

我是 apace hudi 的新手,并尝试使用 spark shell 在我的 Hudi 表中写入我的数据框。对于第一次输入,我没有创建任何表并以覆盖模式写入,所以我期待它会创建 hudi 表。我正在编写以下代码。

可以请指导我如何写这个声明。

0 投票
1 回答
896 浏览

apache-spark - 使用 hudi 创建外部表配置单元的问题

我正在尝试使用 apache hudi 框架在配置单元元存储中创建一个外部文件。它能够与配置单元元存储连接,但在尝试创建表时连接后抛出异常。

依赖项:

得到以下异常:

0 投票
2 回答
868 浏览

amazon-emr - 使用 Hudi 时无法在 EMR 中的 AWS Glue 目录上运行 spark.sql

我们的设置配置为在 AWS 上有一个默认的 Data Lake,使用 S3 作为存储,Glue Catalog 作为我们的元存储。

我们开始使用 Apache Hudi,我们可以按照 de AWS 文档让它工作。问题是,当使用文档中指示的配置和 JAR 时,我们无法spark.sql在 Glue 元存储上运行。

以下是一些信息。

我们正在创建集群boto3

我们使用上述文档中的示例启动 pyspark shell:

然后,在 shell 内部,当我们运行时,spark.sql("show tables")我们会收到以下错误:

我们还尝试将其作为一个步骤提交deploy-mode clientcluster并得到了类似的结果。