问题标签 [spark-streaming-kafka]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5796 浏览

hadoop - Kafka Spark 流式传输:无法读取消息

我正在使用 spark-streaming 集成 Kafka 和 Spark。我作为 kafka 制作人创建了一个主题:

我在 kafka 中发布消息并尝试使用 spark-streaming java 代码读取它们并将它们显示在屏幕上。
守护进程全部启动:Spark-master,worker;动物园管理员;卡夫卡。
我正在编写一个 java 代码,使用 KafkaUtils.createStream
代码如下:

我正在运行这项工作,而在其他终端我正在运行 kafka-producer 来发布消息:

但是 spark-streaming 控制台的输出日志不显示消息,但显示接收到零块:

为什么没有收到数据块?我已经尝试在控制台上使用 kafka producer-consumerbin/kafka-console-producer.... 并且bin/kafka-console-consumer...它的工作完美,但为什么不是我的代码......任何想法?

0 投票
2 回答
3220 浏览

apache-spark - 火花提交失败,火花流工作量 python 代码

我刚刚复制了 spark streaming wodcount python 代码,并使用 spark-submit 在 Spark 集群中运行 wordcount python 代码,但它显示以下错误:

我确实构建了 jar spark-streaming-kafka-assembly_2.10-1.4.0-SNAPSHOT.jar。我使用以下脚本提交: bin/spark-submit /data/spark-1.3.0-bin-hadoop2.4/wordcount.py --master spark://192.168.100.6:7077 --jars /data/ spark-1.3.0-bin-hadoop2.4/kafka-assembly/target/spark-streaming-kafka-assembly_*.jar。

提前致谢!

0 投票
1 回答
2235 浏览

apache-spark - Spark Streaming Kafka 集成直接方法 EOFException

当我运行火花流示例时org.apache.spark.examples.streaming.JavaDirectKafkaWordCount,我发现了一个EOFException关注,我该如何解决它

0 投票
8 回答
56054 浏览

scala - 如何将火花流 DF 写入 Kafka 主题

我正在使用 Spark Streaming 处理两个 Kafka 队列之间的数据,但我似乎找不到从 Spark 在 Kafka 上写入的好方法。我试过这个:

并且它按预期工作,但是在真实环境中为每条消息实例化一个新的 KafkaProducer 显然是不可行的,我正在尝试解决它。

我想为每个进程保留对单个实例的引用,并在需要发送消息时访问它。如何从 Spark Streaming 写入 Kafka?

0 投票
1 回答
230 浏览

apache-kafka - DSE Spark Streaming+Kafka NoSuchMethodError

我正在尝试提交一个火花流 + kafka 作业,它只是从 kafka 主题中读取字符串行。但是,我收到以下异常

15/07/24 22:39:45 ERROR TaskSetManager: 阶段 2.0 中的任务 0 失败 4 次;线程“Thread-49”org.apache.spark.SparkException 中的中止作业异常:作业因阶段失败而中止:阶段 2.0 中的任务 0 失败 4 次,最近一次失败:阶段 2.0 中丢失任务 0.3(TID 73、10.11。 112.93): java.lang.NoSuchMethodException: kafka.serializer.StringDecoder.(kafka.utils.VerifiableProperties) java.lang.Class.getConstructor0(Class.java:2892) java.lang.Class.getConstructor(Class.java:1723) org.apache.spark.streaming.kafka.KafkaReceiver.onStart(KafkaInputDStream.scala:106) org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:121) org.apache.spark.streaming.receiver。 ReceiverSupervisor.start(ReceiverSupervisor.scala:106) org.apache.spark。

当我检查 DSE 使用的 spark jar 文件时,我发现它使用了 kafka_2.10-0.8.0.jar,它确实具有该构造函数。不确定是什么导致了错误。这是我的消费者代码

更新此异常似乎仅在我提交作业时发生。如果我使用 spark shell 通过粘贴代码来运行作业,它可以正常工作

0 投票
2 回答
2442 浏览

apache-spark - Apache Kafka 和 Spark 流式传输

我正在阅读这篇博文:

http://blog.jaceklaskowski.pl/2015/07/20/real-time-data-processing-using-apache-kafka-and-spark-streaming.html

它讨论了使用 Spark Streaming 和 Apache Kafka 进行一些近乎实时的处理。我完全理解这篇文章。它确实展示了我如何使用 Spark Streaming 从主题中读取消息。我想知道是否有可用于将消息写入 Kakfa 主题的 Spark Streaming API?

我的用例非常简单。我有一组数据,我可以以恒定的时间间隔(比如每秒)从给定的源读取这些数据。我使用反应流来做到这一点。我想使用 Spark 对这些数据进行一些分析。我想要容错,所以 Kafka 发挥作用。所以我基本上要做的是以下(如果我错了请纠正我):

  1. 使用反应流以恒定的时间间隔从外部源获取数据
  2. 将结果通过管道传输到 Kafka 主题中
  3. 使用 Spark Streaming,为消费者创建流上下文
  4. 对消耗的数据执行分析

另一个问题是,Spark 中的 Streaming API 是响应式流规范的实现吗?它是否具有背压处理(Spark Streaming v1.5)?

0 投票
0 回答
295 浏览

scala - 使用 Kafka 进行 Spark Streaming

我想在 Spark 中进行简单的机器学习。

首先,应用程序应该从文件中的历史数据中进行一些学习,训练机器学习模型,然后从 kafka 读取输入以实时给出预测。为此,我相信我应该使用火花流。但是,恐怕我并不真正了解火花流的工作原理。

代码如下所示:

ML 是一个包含一些机器学习内容的类,train 给它提供数据进行训练。还有一种方法classify可以根据所学知识计算预测。第一部分似乎工作正常,但real_time有一个问题:

我想做的是检查 Kafka 流并计算它是否有任何新行。好像不是这样的,我加了一些打印,没有打印。

如何使用火花流,在我的情况下应该如何使用?

0 投票
2 回答
7411 浏览

apache-spark - Spark Streaming Kafka 流

我在尝试使用火花流从 kafka 读取时遇到了一些问题。

我的代码是:

我之前在 2181 端口启动了 zookeeper,在 9092 端口启动了 Kafka 服务器 0.9.0.0。但是我在 Spark 驱动程序中收到以下错误:

动物园管理员日志:

有什么提示吗?

非常感谢

0 投票
1 回答
1194 浏览

java - Spark Streaming + kafka“JobGenerator”java.lang.NoSuchMethodError

我是火花流和卡夫卡的新手,我不明白这个运行时异常。我已经设置了 kafka 服务器。

这是我的代码

该项目的目的是使用 kafka 队列从 twitter 流中计算出 10 个最佳主题标签。代码在没有 kakfa 的情况下工作。你有什么问题的想法吗?

0 投票
1 回答
651 浏览

scala - Spark Streaming,kafka:java.lang.StackOverflowError

我在 spark-streaming 应用程序中遇到错误,我正在使用 kafka 作为输入流。当我使用套接字时,它工作正常。但是当我更改为 kafka 时,它会出错。任何人都知道为什么会抛出错误,我需要更改批处理时间并检查指向时间吗?

ERROR StreamingContext:启动上下文时出错,将其标记为已停止 java.lang.StackOverflowError

我的程序: