2

在浏览 Hudi 文档时,我看到了Metadata Config部分,并对它的使用方式感到好奇。我创建了一个启用元数据的表,并且在/.hoodie/metadata. 有人试过这个功能吗?元数据是向 Hudi 公开还是仅在内部使用?它是干什么用的?我无法从文档中理解它。

我使用以下 Hudi 选项使用 PySpark 在 S3 中创建表。

hudi_options_insert = {
     "hoodie.table.name": "table_p5",
     "hoodie.datasource.write.table.type": "COPY_ON_WRITE",
     "hoodie.datasource.write.recordkey.field": "id",
     "hoodie.datasource.write.operation": "bulk_insert",
     "hoodie.datasource.write.partitionpath.field": "ds",
     "hoodie.datasource.write.precombine.field": "id",
     "hoodie.datasource.write.hive_style_partitioning": "true",
     "hoodie.datasource.hive_sync.table": "table_p5",
     "hoodie.datasource.hive_sync.database": "poc_hudi",
     "hoodie.datasource.hive_sync.enable": "true",
     "hoodie.datasource.hive_sync.partition_fields": "ds",
     "hoodie.insert.shuffle.parallelism": 6,
     "hoodie.metadata.enable": "true",
     "hoodie.metadata.insert.parallelism": 6
     }

谢谢一米。

4

0 回答 0