2

Spark Structured Streaming (3.1.1)用来从 S3 上读取数据KafkaHUDI (0.8.0)用作按日期对数据进行分区的存储系统。(这部分没有问题)

我希望使用Trino (355)能够查询该数据。hudi-presto-bundle-0.8.0.jar作为一个前诅咒者,我已经把/data/trino/hive/

我创建了一个具有以下架构的表

CREATE TABLE table_new (
  columns, dt
) WITH (
  partitioned_by = ARRAY['dt'], 
  external_location = 's3a://bucket/location/',
  format = 'parquet'
);

即使调用下面的函数,trino 也无法发现任何分区

CALL system.sync_partition_metadata('schema', 'table_new', 'ALL')

我的评估是,我无法使用 hudi 在 trino 下创建表格,这主要是因为我无法在WITHOptions 下传递正确的值。我也无法在 HUDI 文档下找到创建表示例。

如果有人能给我一个例子,或者指出我正确的方向,如果我错过了什么,我将非常感激。

非常感谢帮助


小更新:尝试添加

connector = 'hudi'

但这会引发错误:

Catalog 'hive' does not support table property 'connector'
4

1 回答 1

0

你试过下面吗? 在此处输入图像描述

参考:https ://hudi.apache.org/docs/next/querying_data/#trino https://hudi.apache.org/docs/query_engine_setup/#PrestoDB

于 2021-12-23T11:56:45.007 回答