apache-spark - 使用 HUDI 在 TRINO 上创建 TABLE 的示例

Question

我Spark Structured Streaming (3.1.1)用来从 S3 上读取数据Kafka并HUDI (0.8.0)用作按日期对数据进行分区的存储系统。（这部分没有问题）

我希望使用Trino (355)能够查询该数据。hudi-presto-bundle-0.8.0.jar作为一个前诅咒者，我已经把/data/trino/hive/

我创建了一个具有以下架构的表

CREATE TABLE table_new (
  columns, dt
) WITH (
  partitioned_by = ARRAY['dt'], 
  external_location = 's3a://bucket/location/',
  format = 'parquet'
);

即使调用下面的函数，trino 也无法发现任何分区

CALL system.sync_partition_metadata('schema', 'table_new', 'ALL')

我的评估是，我无法使用 hudi 在 trino 下创建表格，这主要是因为我无法在WITHOptions 下传递正确的值。我也无法在 HUDI 文档下找到创建表示例。

如果有人能给我一个例子，或者指出我正确的方向，如果我错过了什么，我将非常感激。

非常感谢帮助

小更新：尝试添加

connector = 'hudi'

但这会引发错误：

Catalog 'hive' does not support table property 'connector'

score 0 · Accepted Answer

你试过下面吗？

参考：https ://hudi.apache.org/docs/next/querying_data/#trino https://hudi.apache.org/docs/query_engine_setup/#PrestoDB

apache-spark - 使用 HUDI 在 TRINO 上创建 TABLE 的示例

1 回答 1

Related

Reference