星火版本 = 2.3.0
卡夫卡版本 = 1.0.0
正在使用的代码片段:
# Kafka Enpoints
zkQuorum = '192.168.2.10:2181,192.168.2.12:2181'
topic = 'Test_topic'
# Create a kafka Stream
kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, "cyd-demo-azureactivity-streaming-consumer", {topic: 1})
当 Kafka 流实时运行时,我看到 spark 拉数据,但是如果我在 Spark 前一个小时启动 Kafka,它不会提取一小时前的数据。
这是预期的还是有办法在配置中进行设置?
代码运行使用:
sudo $SPARK_HOME/spark-submit --master local[2] --jars /home/steven/jars/elasticsearch-hadoop-6.3.2.jar,/home/steven/jars/spark-streaming-kafka-0-8-assembly_2.11-2.3.1.jar /home/steven/code/demo/test.py