0

我们正计划从加缪迁移到地精。在加缪我们使用下面提到的配置:

etl.partitioner.class=com.linkedin.camus.etl.kafka.partitioner.TimeBasedPartitioner
etl.destination.path.topic.sub.dirformat=YYYY/MM/dd/HH/mm
etl.output.file.time.partition.mins=30

但在 Gobblin 中,我们的配置如下:

writer.file.path.type=tablename
writer.partition.level=minute (other options: daily,hourly..)
writer.partition.pattern=YYYY/MM/dd/HH/mm

这会在分钟级别上创建目录,但我们需要 30 分钟的分区。

在官方文档中找不到太多帮助:http: //gobblin.readthedocs.io/en/latest/miscellaneous/Camus-to-Gobblin-Migration/

是否有任何其他配置可用于实现此目的?

4

1 回答 1

0

通过在自定义 WriterPartitioner 中实现 partitionerMethod 获得了解决方法:

在分区器中获取记录级时间戳时,我们只需要使用下面提到的方法发送处理后的时间戳毫秒。

public static long getPartition(long timeGranularityMs, long timestamp, DateTimeZone outputDateTimeZone) {
    long adjustedTimeStamp = outputDateTimeZone.convertUTCToLocal(timestamp);
    long partitionedTime = (adjustedTimeStamp / timeGranularityMs) * timeGranularityMs;
    return outputDateTimeZone.convertLocalToUTC(partitionedTime, false);
}

现在分区正在以所需的时间粒度生成。

于 2018-07-19T15:10:49.730 回答