3

我正在尝试从我的 Spark 批处理作业中的 Kafka 主题中读取并发布到另一个主题。我没有使用流媒体,因为它不适合我们的用例。根据 spark docs,批处理作业默认从最早的 Kafka 偏移量开始读取,因此当我再次运行该作业时,它会再次从最早的偏移量读取。如何确保作业从上次读取的位置获取下一个偏移量?

根据 Spark Kafka 集成文档,可以选择指定“startingOffsets”和“endingOffsets”。但是我该如何弄清楚它们呢?

我正在使用spark.read.format("kafka")API 从 Kafka 读取数据作为数据集。但我没有找到任何选项来从此数据集读取的开始和结束偏移范围。

4

0 回答 0