问题标签 [iceberg]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

26 问题

0 投票

0 回答

172 浏览

java - 使用 iceberg Java api 创建表失败

我正在尝试使用 hive metastore、s3 和 Java Api 和 spark 创建冰山表。没有找到有效的 PoC 或任何 github 存储库。我编写的代码是多个来源的结果。

我的代码：

错误日志：

创建 SparkSession 时抛出错误。

爪哇：

爪哇 9

我不确定，如果我以正确的方式创建表格。请帮助我提出建议或任何有效的 Maven 和 Java 配置。

2021-12-31T21:17:59.213

0 投票

1 回答

145 浏览

apache-spark - 将多个分区规范写入 Apache Iceberg 表

我想编写一个具有与默认表设置不同的分区规范的 Iceberg 表，这样当我运行数据压缩时，数据将根据默认规范进行压缩（尽可能使用write-format配置）

例如：

从理论上讲，它应该没问题，因为 Iceberg 知道如何处理这里提到的多个分区规范Partition Evolution。实际上，我还没有找到一种方法来做到这一点。

有什么办法可以做到这一点？

apache-spark apache-spark-sql iceberg

2022-01-02T13:05:01.610

0 投票

0 回答

21 浏览

apache-spark - Iceberg：如何快速遍历一个非常大的表

我是冰山的新手，我有一个关于查询大表的问题。

我们有一个 Hive 表，总共有 360 万条记录，每条记录有 120 个字段。而我们想把这张表中的所有记录都转移到其他数据库，比如pg、kafak等。

目前我们这样做：

但它可能会在 foreach 过程中卡住很长时间。

并且我尝试了下面的方法，进程并没有长时间卡住，但是遍历速度很慢，遍历效率在50条记录/秒左右。

这两种方式都不能满足我们的需求，请问我的代码是否需要修改，或者有没有更好的方式遍历所有记录？谢谢！

apache-spark hive iceberg

2022-01-07T07:36:31.267

0 投票

1 回答

92 浏览

amazon-s3 - Apache Iceberg 表格式到 ADLS / azure 数据湖

我正在尝试找到一些集成，以便在 adls /azure 数据湖上使用冰山表格式来执行 crud 操作。是否可以不使用任何其他计算引擎（如 spark）在 azure 上使用它。我认为 aws s3 支持这个用例。关于它的任何想法。

amazon-s3 azure-data-lake azure-data-lake-gen2 iceberg

2022-01-19T11:42:04.167

0 投票

1 回答

30 浏览

scala - apache flink table api中无法识别的Scala选项类型

我正在构建一个 flink 应用程序，它从 kafka 主题中读取数据，应用一些转换并写入 Iceberg 表。

我从 kafka 主题（在 json 中）读取数据并使用 circe 将其解码为 scala 案例类，其中包含 scala 选项值。数据流上的所有转换都可以正常工作。

案例类如下所示

Event(app_name: Option[String], service_name: Option[String], ......)

但是当我尝试将流转换为表以写入冰山表时，由于案例类，列将转换为原始类型，如下所示。

table.printSchema()

并且表写入失败如下。

flink table api 是否支持带有选项值的 scala 案例类？ https://nightlies.apache.org/flink/flink-docs-master/docs/dev/datastream/fault-tolerance/serialization/types_serialization/#special-types

我发现本文档中的数据流支持它。

有没有办法在 Table API 中做到这一点。

在此先感谢您的帮助..

scala apache-flink flink-streaming flink-sql iceberg

2022-02-20T18:46:57.860

0 投票

1 回答

18 浏览

python - 从 pyspark 将表描述添加到冰山表

我可以使用 trino 向冰山表添加表注释，使用这个 trino 命令：

也可以使用以下命令从 pyspark 中读取：

我找不到使用 spark 将这些注释插入表的方法。有没有办法这样做？非常感谢

python pyspark hive apache-spark-sql iceberg

2022-02-26T10:21:34.117

1 2 3 4 5 6 7 8 9 10

问题标签 [iceberg]

java - 使用 iceberg Java api 创建表失败

我的代码：

错误日志：

apache-spark - 将多个分区规范写入 Apache Iceberg 表

apache-spark - Iceberg：如何快速遍历一个非常大的表

amazon-s3 - Apache Iceberg 表格式到 ADLS / azure 数据湖

scala - apache flink table api中无法识别的Scala选项类型

python - 从 pyspark 将表描述添加到冰山表

Reference