在浏览 Hudi 文档时,我看到了Metadata Config部分,并对它的使用方式感到好奇。我创建了一个启用元数据的表,并且在/.hoodie/metadata
. 有人试过这个功能吗?元数据是向 Hudi 公开还是仅在内部使用?它是干什么用的?我无法从文档中理解它。
我使用以下 Hudi 选项使用 PySpark 在 S3 中创建表。
hudi_options_insert = {
"hoodie.table.name": "table_p5",
"hoodie.datasource.write.table.type": "COPY_ON_WRITE",
"hoodie.datasource.write.recordkey.field": "id",
"hoodie.datasource.write.operation": "bulk_insert",
"hoodie.datasource.write.partitionpath.field": "ds",
"hoodie.datasource.write.precombine.field": "id",
"hoodie.datasource.write.hive_style_partitioning": "true",
"hoodie.datasource.hive_sync.table": "table_p5",
"hoodie.datasource.hive_sync.database": "poc_hudi",
"hoodie.datasource.hive_sync.enable": "true",
"hoodie.datasource.hive_sync.partition_fields": "ds",
"hoodie.insert.shuffle.parallelism": 6,
"hoodie.metadata.enable": "true",
"hoodie.metadata.insert.parallelism": 6
}
谢谢一米。