1

我是大数据领域的新手,我需要制作一个演示,使用火花流从 Kafka 主题流式传输数据,然后进行一些聚合和过滤,然后保存这些数据。我正在使用 spark 2.3 我需要知道哪个版本的 spark 流 Kafka 必须使用 spark-2.3 文档中的 0.8 或 10 ->

https://spark.apache.org/docs/2.3.0/streaming-kafka-integration.html提到

在此处输入图像描述0.8 已弃用,10 稳定但在流式卡夫卡-0-10-集成中->

https://spark.apache.org/docs/2.3.0/streaming-kafka-0-10-integration.html

在此处输入图像描述

提到 0.8 是稳定的,10 是实验性的,我使用的是 Kafka 2.1。

所以我必须使用其中的哪一个

4

2 回答 2

0

0.8 版本稳定,但 kafka 不为此版本提供技术支持。我认为,您应该继续使用最新版本。

于 2019-03-17T17:12:46.463 回答
0

我正在使用 Kafka 2.1。

然后你应该使用 Spark 的 0.10 Kafka API,主要是因为拥有新的 Consumer API,正如该页面所述。

如果您升级到 Spark 2.4,相同的库会升级为使用 Kafka 2.0 库,但它们保留名称为 0.10 - SPARK-18057

于 2019-03-17T20:49:05.603 回答