我Spark Structured Streaming (3.1.1)
用来从 S3 上读取数据Kafka
并HUDI (0.8.0)
用作按日期对数据进行分区的存储系统。(这部分没有问题)
我希望使用Trino (355)
能够查询该数据。hudi-presto-bundle-0.8.0.jar
作为一个前诅咒者,我已经把/data/trino/hive/
我创建了一个具有以下架构的表
CREATE TABLE table_new (
columns, dt
) WITH (
partitioned_by = ARRAY['dt'],
external_location = 's3a://bucket/location/',
format = 'parquet'
);
即使调用下面的函数,trino 也无法发现任何分区
CALL system.sync_partition_metadata('schema', 'table_new', 'ALL')
我的评估是,我无法使用 hudi 在 trino 下创建表格,这主要是因为我无法在WITH
Options 下传递正确的值。我也无法在 HUDI 文档下找到创建表示例。
如果有人能给我一个例子,或者指出我正确的方向,如果我错过了什么,我将非常感激。
非常感谢帮助
小更新:尝试添加
connector = 'hudi'
但这会引发错误:
Catalog 'hive' does not support table property 'connector'