我已经完成了这个stackoverflow 问题,根据答案它只为批处理间隔创建了DStream
一个。RDD
例如:
我的批处理间隔为 1 分钟,Spark Streaming 作业正在使用来自 Kafka 主题的数据。
我的问题是,DStream 中可用的 RDD 是否提取/包含最后一分钟的全部数据?我们需要设置任何标准或选项来提取最后一分钟创建的所有数据吗?
如果我有一个带有 3 个分区的 Kafka 主题,并且所有 3 个分区都包含最后一分钟的数据,那么 DStream 是否会提取/包含所有 Kafka 主题分区中最后一分钟创建的所有数据?
更新:
在哪种情况下 DStream 包含多个 RDD?