3

我目前正在Hudi使用 spark(scala) 在 Apache 上进行 POC。

我在使用分区保存数据框时遇到问题。

Hudipath/valueOfPartitionCol1/valueOfPartitionCol2.... 使用属性保存数据框PARTITIONPATH_FIELD_OPT_KEY

但我的要求path/COL1=value/COL2=value....类似于 spark 使用partitionBy().

任何尝试过自定义分区的人都Hudi可以帮助我吗?

4

2 回答 2

2

这有帮助吗?设置配置 HIVE_STYLE_PARTITIONING_OPT_KEY=true 如下:

  batchDF.write.format("org.apache.hudi")

          .option(HIVE_STYLE_PARTITIONING_OPT_KEY, true)

          .mode(SaveMode.Append)
          .save(bathPath)
于 2020-04-03T08:34:45.447 回答
1

您可以创建类的自定义实现KeyGenerator,实现override def getKey(record: GenericRecord): HoodieKey类。在此方法中,您将获得一个实例GenericRecord并返回一个类,该类HoodieKey()允许您定义自定义逻辑以生成路径分区

于 2020-05-07T14:53:27.263 回答