pyspark - Hudi元数据表可以查询吗？

问问题 2021-02-10T12:41:01.617

287 次

在浏览 Hudi 文档时，我看到了Metadata Config部分，并对它的使用方式感到好奇。我创建了一个启用元数据的表，并且在/.hoodie/metadata. 有人试过这个功能吗？元数据是向 Hudi 公开还是仅在内部使用？它是干什么用的？我无法从文档中理解它。

我使用以下 Hudi 选项使用 PySpark 在 S3 中创建表。

hudi_options_insert = {
     "hoodie.table.name": "table_p5",
     "hoodie.datasource.write.table.type": "COPY_ON_WRITE",
     "hoodie.datasource.write.recordkey.field": "id",
     "hoodie.datasource.write.operation": "bulk_insert",
     "hoodie.datasource.write.partitionpath.field": "ds",
     "hoodie.datasource.write.precombine.field": "id",
     "hoodie.datasource.write.hive_style_partitioning": "true",
     "hoodie.datasource.hive_sync.table": "table_p5",
     "hoodie.datasource.hive_sync.database": "poc_hudi",
     "hoodie.datasource.hive_sync.enable": "true",
     "hoodie.datasource.hive_sync.partition_fields": "ds",
     "hoodie.insert.shuffle.parallelism": 6,
     "hoodie.metadata.enable": "true",
     "hoodie.metadata.insert.parallelism": 6
     }

谢谢一米。

pyspark - Hudi元数据表可以查询吗？

0 回答 0

Related

Reference