我正在编写一个从 Kafka 读取的 Spark Streaming 应用程序。为了有一个确切的语义,我想使用直接的 Kafka 流并使用 Spark Streaming 本机检查点。
问题是检查点使维护代码几乎不可能:如果您更改某些内容,就会丢失检查点数据,因此您几乎不得不从 Kafka 读取一些消息。我想避免它。
因此,我试图自己读取检查点目录中的数据,但到目前为止我还无法做到这一点。有人可以告诉我如何通过检查点文件夹读取有关上次处理的 Kafka 偏移量的信息吗?
谢谢你,马可
我正在编写一个从 Kafka 读取的 Spark Streaming 应用程序。为了有一个确切的语义,我想使用直接的 Kafka 流并使用 Spark Streaming 本机检查点。
问题是检查点使维护代码几乎不可能:如果您更改某些内容,就会丢失检查点数据,因此您几乎不得不从 Kafka 读取一些消息。我想避免它。
因此,我试图自己读取检查点目录中的数据,但到目前为止我还无法做到这一点。有人可以告诉我如何通过检查点文件夹读取有关上次处理的 Kafka 偏移量的信息吗?
谢谢你,马可