我正在使用 Spark Structured Streaming(版本 2.3.2)。我需要从 Kafka Cluster 读取并写入 Kerberized Kafka。这里我想在记录写入 Kerberized Kafka 后使用 Kafka 作为偏移检查点。
问题:
- 我们可以使用 Kafka 进行检查点来管理偏移量还是只需要使用 HDFS/S3?
请帮忙。
我正在使用 Spark Structured Streaming(版本 2.3.2)。我需要从 Kafka Cluster 读取并写入 Kerberized Kafka。这里我想在记录写入 Kerberized Kafka 后使用 Kafka 作为偏移检查点。
问题:
请帮忙。
我们可以使用 Kafka 进行检查点来管理偏移量吗
不,您不能将偏移量提交回您的源 Kafka 主题。这在此处进行了详细描述,当然也可以在官方Spark Structured Streaming + Kafka 集成指南中进行描述。
还是我们只需要使用 HDFS/S3?
是的,这必须是 HDFS 或 S3 之类的东西。这在 StructuredStreaming Programming Guide 的使用检查点从故障中恢复部分进行了解释:“此检查点位置必须是HDFS 兼容文件系统中的路径,并且可以在启动查询时在 DataStreamWriter 中设置为选项。”