0

我的 kafka 集群版本是 0.10.0.0,我想使用 pyspark 流来读取 kafka 数据。但在 Spark Streaming + Kafka 集成指南http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html 中没有 python 代码示例。那么pyspark可以使用spark-streaming-kafka-0-10来集成kafka吗?

预先感谢您的帮助 !

4

2 回答 2

0

当您的代理为 0.10 及更高版本时,您可以使用 spark-streaming-kafka-0-8。spark-streaming-kafka-0-8 支持较新的代理版本,而 streaming-kafka-0-10 不支持较旧的代理版本。截至目前,streaming-kafka-0-10 仍处于试验阶段,不支持 Python。

于 2019-07-21T14:13:29.270 回答
0

我还将火花流与 Kafka 0.10.0 集群一起使用。在您的代码中添加以下行后,您就可以开始了。

spark.jars.packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.0

这里是python中的一个示例:

# Initialize SparkContext
sc = SparkContext(appName="sampleKafka")

# Initialize spark stream context
batchInterval = 10
ssc = StreamingContext(sc, batchInterval)

# Set kafka topic
topic = {"myTopic": 1}

# Set application groupId
groupId = "myTopic"

# Set zookeeper parameter
zkQuorum = "zookeeperhostname:2181"

# Create Kafka stream 
kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, groupId, topic)

#Do as you wish with your stream
# Start stream
ssc.start()
ssc.awaitTermination()
于 2017-08-07T13:24:27.137 回答