apache-spark - 如何在计划的 Spark 批处理作业中找出 Kafka 的起始偏移量和结束偏移量？

问问题 2019-09-26T19:45:51.807

1077 次

我正在尝试从我的 Spark 批处理作业中的 Kafka 主题中读取并发布到另一个主题。我没有使用流媒体，因为它不适合我们的用例。根据 spark docs，批处理作业默认从最早的 Kafka 偏移量开始读取，因此当我再次运行该作业时，它会再次从最早的偏移量读取。如何确保作业从上次读取的位置获取下一个偏移量？

根据 Spark Kafka 集成文档，可以选择指定“startingOffsets”和“endingOffsets”。但是我该如何弄清楚它们呢？

我正在使用spark.read.format("kafka")API 从 Kafka 读取数据作为数据集。但我没有找到任何选项来从此数据集读取的开始和结束偏移范围。

apache-spark - 如何在计划的 Spark 批处理作业中找出 Kafka 的起始偏移量和结束偏移量？

0 回答 0

Related

Reference