我正在阅读这篇博文:
它讨论了使用 Spark Streaming 和 Apache Kafka 进行一些近乎实时的处理。我完全理解这篇文章。它确实展示了我如何使用 Spark Streaming 从主题中读取消息。我想知道是否有可用于将消息写入 Kakfa 主题的 Spark Streaming API?
我的用例非常简单。我有一组数据,我可以以恒定的时间间隔(比如每秒)从给定的源读取这些数据。我使用反应流来做到这一点。我想使用 Spark 对这些数据进行一些分析。我想要容错,所以 Kafka 发挥作用。所以我基本上要做的是以下(如果我错了请纠正我):
- 使用反应流以恒定的时间间隔从外部源获取数据
- 将结果通过管道传输到 Kafka 主题中
- 使用 Spark Streaming,为消费者创建流上下文
- 对消耗的数据执行分析
另一个问题是,Spark 中的 Streaming API 是响应式流规范的实现吗?它是否具有背压处理(Spark Streaming v1.5)?