问题标签 [apache-hudi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyspark - Hudi元数据表可以查询吗?
在浏览 Hudi 文档时,我看到了Metadata Config部分,并对它的使用方式感到好奇。我创建了一个启用元数据的表,并且在/.hoodie/metadata
. 有人试过这个功能吗?元数据是向 Hudi 公开还是仅在内部使用?它是干什么用的?我无法从文档中理解它。
我使用以下 Hudi 选项使用 PySpark 在 S3 中创建表。
谢谢一米。
apache-hudi - 在 Java 客户端中使用 Apache hudi 库
我是hudi新手。我想知道是否可以直接从 java 客户端使用 Hudi 客户端库来写入 Amazon S3 文件夹。我正在尝试构建一个可以存储大量编号的系统。高达 50k/秒的事件将从由 10 多个组件组成的分布式系统发出。我想知道是否可以使用 Hudi 客户端库构建一个简单的客户端来缓冲这些数据,然后定期将其写入 Hudi 数据存储区?
apache-spark - 无法创建 hive 连接 jdbc:hive2://localhost:10000。集群模式下的 spark-submit
我在 Apache Spark 上运行 Apache Hudi 应用程序。当我在客户端模式下提交应用程序时,它工作正常,但是当我在集群模式下提交应用程序时,出现错误
apache-spark - 读取 orc 文件时,最新版本的 Hudi(0.7.0、0.6.0)是否可以与 Spark 2.3.0 一起使用?
文档说:Hudi 适用于 Spark-2.x 和 Spark 3.x 版本。(https://hudi.apache.org/docs/quick-start-guide.html)但我无法将 hudi-spark-bundle_2.11 版本 0.7.0 与 Spark 2.3.0 和 Scala 2.11.12 一起使用. 是否有任何特定的 spark_avro 包必须使用?
作业失败并出现以下错误: java.lang.NoSuchMethodError: org.apache.spark.sql.types.Decimal$.minBytesForPrecision()[I 任何输入都会非常有帮助。
在我正在使用的集群中,我们有 Spark 2.3.0,并且没有立即升级的计划。想检查是否有任何方法可以使 Hudi 0.7.0 与 Spark 2.3.0 一起使用?
注意:我可以将 Spark 2.3.0 与 hudi-spark-bundle-0.5.0-incubating.jar 一起使用
在 spark-shell 我收到以下错误:
apache-spark - 使用 Avro Schema 将 Hudi 与 Kafka 集成的问题
我正在尝试将 Hudi 与 Kafka 主题集成。
遵循的步骤:
- 使用模式注册表中定义的模式在 Confluent 中创建 Kafka 主题。
- 使用 kafka-avro-console-producer,我正在尝试生成数据。
- 以连续模式运行 Hudi Delta Streamer 以使用数据。
基础设施 :
- AWS 电子病历
- 火花 2.4.4
- Hudi 实用程序(尝试使用 0.6.0 和 0.7.0)
- Avro(尝试过 avro-1.8.2、avro-1.9.2 和 avro-1.10.0)
我收到以下错误堆栈跟踪。有人可以帮我解决这个问题吗?
apache-spark - 使用即时时间读取 Spark Datasource Hudi 表
我正在使用Spark.read.format("hudi")读取 Hudi 表
想了解这个选项是如何工作的hoodie.datasource.read.begin.instanttime 它是否类似于 parquets 文件中提供的 hudi 的 hoodie_commit_ts 列?
我无法使用 hoodie_commit_ts 列和以下方法在同一 hudi 路径顶部的外部表之间获得相同的计数。
示例代码在这里
开始时间 = '20201201194517'
incremental_read_options = {'hoodie.datasource.query.type':'增量','hoodie.datasource.read.begin.instanttime':beginTime}
Incremental_DF = spark.read.format("org.apache.hudi")。
选项(**incremental_read_options)。
加载()
apache-spark - 在 Apache Hudi 表中编写 spark DataFrame
我是 apace hudi 的新手,并尝试使用 spark shell 在我的 Hudi 表中写入我的数据框。对于第一次输入,我没有创建任何表并以覆盖模式写入,所以我期待它会创建 hudi 表。我正在编写以下代码。
可以请指导我如何写这个声明。
apache-spark - 使用 hudi 创建外部表配置单元的问题
我正在尝试使用 apache hudi 框架在配置单元元存储中创建一个外部文件。它能够与配置单元元存储连接,但在尝试创建表时连接后抛出异常。
依赖项:
得到以下异常:
amazon-emr - 使用 Hudi 时无法在 EMR 中的 AWS Glue 目录上运行 spark.sql
我们的设置配置为在 AWS 上有一个默认的 Data Lake,使用 S3 作为存储,Glue Catalog 作为我们的元存储。
我们开始使用 Apache Hudi,我们可以按照 de AWS 文档让它工作。问题是,当使用文档中指示的配置和 JAR 时,我们无法spark.sql
在 Glue 元存储上运行。
以下是一些信息。
我们正在创建集群boto3
:
我们使用上述文档中的示例启动 pyspark shell:
然后,在 shell 内部,当我们运行时,spark.sql("show tables")
我们会收到以下错误:
我们还尝试将其作为一个步骤提交deploy-mode
client
,cluster
并得到了类似的结果。