我有一个 flink 流作业,它从 Kafka 读取并写入文件系统中的适当分区。例如,作业被配置为使用写入 /data/date=${date}/hour=${hour} 的 bucketing sink。
如何检测分区是否已准备好使用,以便相应的气流管道可以在那一小时之上进行一些批处理?
我有一个 flink 流作业,它从 Kafka 读取并写入文件系统中的适当分区。例如,作业被配置为使用写入 /data/date=${date}/hour=${hour} 的 bucketing sink。
如何检测分区是否已准备好使用,以便相应的气流管道可以在那一小时之上进行一些批处理?
您可以查看ContinuousFileMonitoringSource的实现,以了解它如何监控文件系统。然后做一些类似于大卫安德森在你的另一个问题中建议的事情,重新创建一个自定义的 ProcessFunction。