我的 Spark 流式传输作业正在使用来自 Kafka 的数据
KafkaUtils.createStream(jssc, prop.getProperty(Config.ZOOKEEPER_QUORUM),
prop.getProperty(Config.KAFKA_CONSUMER_GROUP), topicMap);
每当我重新开始我的工作时,它就会从最后一个偏移存储开始消耗(我假设这是因为发送处理后的数据需要很多时间,如果我更改消费者组,它会立即使用新消息)
我是 kafka 8.1.1,其中 auto.offset.reset 默认为最大,这意味着每当我重新启动 kafka 时,都会从我离开的地方发送数据。
我的用例要求我忽略这些数据并只处理到达的数据。我怎样才能做到这一点?任何建议