问题标签 [iceberg]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
172 浏览

java - 使用 iceberg Java api 创建表失败

我正在尝试使用 hive metastore、s3 和 Java Api 和 spark 创建冰山表。没有找到有效的 PoC 或任何 github 存储库。我编写的代码是多个来源的结果。

我的代码:

错误日志:

创建 SparkSession 时抛出错误。

爪哇:

  • 爪哇 9

我不确定,如果我以正确的方式创建表格。请帮助我提出建议或任何有效的 Maven 和 Java 配置。

0 投票
1 回答
145 浏览

apache-spark - 将多个分区规范写入 Apache Iceberg 表

我想编写一个具有与默认表设置不同的分区规范的 Iceberg 表,这样当我运行数据压缩时,数据将根据默认规范进行压缩(尽可能使用write-format配置)

例如:

从理论上讲,它应该没问题,因为 Iceberg 知道如何处理这里提到的多个分区规范Partition Evolution。实际上,我还没有找到一种方法来做到这一点。

有什么办法可以做到这一点?

0 投票
0 回答
21 浏览

apache-spark - Iceberg:如何快速遍历一个非常大的表

我是冰山的新手,我有一个关于查询大表的问题。

我们有一个 Hive 表,总共有 360 万条记录,每条记录有 120 个字段。而我们想把这张表中的所有记录都转移到其他数据库,比如pg、kafak等。

目前我们这样做:

但它可能会在 foreach 过程中卡住很长时间。

并且我尝试了下面的方法,进程并没有长时间卡住,但是遍历速度很慢,遍历效率在50条记录/秒左右。

这两种方式都不能满足我们的需求,请问我的代码是否需要修改,或者有没有更好的方式遍历所有记录?谢谢!

0 投票
1 回答
92 浏览

amazon-s3 - Apache Iceberg 表格式到 ADLS / azure 数据湖

我正在尝试找到一些集成,以便在 adls /azure 数据湖上使用冰山表格式来执行 crud 操作。是否可以不使用任何其他计算引擎(如 spark)在 azure 上使用它。我认为 aws s3 支持这个用例。关于它的任何想法。

0 投票
1 回答
30 浏览

scala - apache flink table api中无法识别的Scala选项类型

我正在构建一个 flink 应用程序,它从 kafka 主题中读取数据,应用一些转换并写入 Iceberg 表。

我从 kafka 主题(在 json 中)读取数据并使用 circe 将其解码为 scala 案例类,其中包含 scala 选项值。数据流上的所有转换都可以正常工作。

案例类如下所示

Event(app_name: Option[String], service_name: Option[String], ......)

但是当我尝试将流转换为表以写入冰山表时,由于案例类,列将转换为原始类型,如下所示。

table.printSchema()

并且表写入失败如下。

flink table api 是否支持带有选项值的 scala 案例类? https://nightlies.apache.org/flink/flink-docs-master/docs/dev/datastream/fault-tolerance/serialization/types_serialization/#special-types

我发现本文档中的数据流支持它。

有没有办法在 Table API 中做到这一点。

在此先感谢您的帮助..

0 投票
1 回答
18 浏览

python - 从 pyspark 将表描述添加到冰山表

我可以使用 trino 向冰山表添加表注释,使用这个 trino 命令:

也可以使用以下命令从 pyspark 中读取:

我找不到使用 spark 将这些注释插入表的方法。有没有办法这样做?非常感谢