问题标签 [iceberg]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 iceberg Java api 创建表失败
我正在尝试使用 hive metastore、s3 和 Java Api 和 spark 创建冰山表。没有找到有效的 PoC 或任何 github 存储库。我编写的代码是多个来源的结果。
我的代码:
错误日志:
创建 SparkSession 时抛出错误。
爪哇:
- 爪哇 9
我不确定,如果我以正确的方式创建表格。请帮助我提出建议或任何有效的 Maven 和 Java 配置。
apache-spark - 将多个分区规范写入 Apache Iceberg 表
我想编写一个具有与默认表设置不同的分区规范的 Iceberg 表,这样当我运行数据压缩时,数据将根据默认规范进行压缩(尽可能使用write-format
配置)
例如:
从理论上讲,它应该没问题,因为 Iceberg 知道如何处理这里提到的多个分区规范Partition Evolution。实际上,我还没有找到一种方法来做到这一点。
有什么办法可以做到这一点?
apache-spark - Iceberg:如何快速遍历一个非常大的表
我是冰山的新手,我有一个关于查询大表的问题。
我们有一个 Hive 表,总共有 360 万条记录,每条记录有 120 个字段。而我们想把这张表中的所有记录都转移到其他数据库,比如pg、kafak等。
目前我们这样做:
但它可能会在 foreach 过程中卡住很长时间。
并且我尝试了下面的方法,进程并没有长时间卡住,但是遍历速度很慢,遍历效率在50条记录/秒左右。
这两种方式都不能满足我们的需求,请问我的代码是否需要修改,或者有没有更好的方式遍历所有记录?谢谢!
amazon-s3 - Apache Iceberg 表格式到 ADLS / azure 数据湖
我正在尝试找到一些集成,以便在 adls /azure 数据湖上使用冰山表格式来执行 crud 操作。是否可以不使用任何其他计算引擎(如 spark)在 azure 上使用它。我认为 aws s3 支持这个用例。关于它的任何想法。
scala - apache flink table api中无法识别的Scala选项类型
我正在构建一个 flink 应用程序,它从 kafka 主题中读取数据,应用一些转换并写入 Iceberg 表。
我从 kafka 主题(在 json 中)读取数据并使用 circe 将其解码为 scala 案例类,其中包含 scala 选项值。数据流上的所有转换都可以正常工作。
案例类如下所示
Event(app_name: Option[String], service_name: Option[String], ......)
但是当我尝试将流转换为表以写入冰山表时,由于案例类,列将转换为原始类型,如下所示。
table.printSchema()
并且表写入失败如下。
flink table api 是否支持带有选项值的 scala 案例类? https://nightlies.apache.org/flink/flink-docs-master/docs/dev/datastream/fault-tolerance/serialization/types_serialization/#special-types
我发现本文档中的数据流支持它。
有没有办法在 Table API 中做到这一点。
在此先感谢您的帮助..
python - 从 pyspark 将表描述添加到冰山表
我可以使用 trino 向冰山表添加表注释,使用这个 trino 命令:
也可以使用以下命令从 pyspark 中读取:
我找不到使用 spark 将这些注释插入表的方法。有没有办法这样做?非常感谢