问题标签 [spark-streaming-kafka]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3710 浏览

apache-kafka - 从火花流中的kafka消息中提取时间戳?

试图从卡夫卡源读取。我想从收到的消息中提取时间戳以进行结构化火花流。kafka(0.10.0.0 版)火花流(2.0.1 版)

0 投票
1 回答
1309 浏览

apache-spark - Spark Streaming Kafka 消费者不喜欢 DStream

我正在使用 Spark Shell(Scala 2.10 和 Spark Streaming org.apache.spark:spark-streaming-kafka-0-10_2.10:2.0.1)来测试 Spark/Kafka 消费者:

当我运行它时,我得到以下异常:

我一遍又一遍地检查了 Scala/API 文档,这段代码看起来应该可以正确执行。知道我要去哪里出错吗?

0 投票
3 回答
2952 浏览

scala - 火花流 + kafka - 火花会话 API

感谢您帮助使用 spark 2.0.2 运行 spark 流程序。

运行错误"java.lang.ClassNotFoundException: Failed to find data source: kafka"。修改后的POM文件如下。

正在创建 Spark,但在调用来自 kafka 的负载时出错。

创建火花会话:

创建 kafka 流:

错误信息:

POM.XML:

0 投票
2 回答
1897 浏览

apache-spark - 获取 java.lang.NoClassDefFoundError: kafka/serializer/StringDecoder Exception,同时从 Spark 流式传输 kafka

我正在尝试从 spark 流应用程序中读取 kafka 流数据;在读取数据的过程中,我遇到了以下异常:

16/12/24 11:09:05 INFO storage.BlockManagerMaster: Registered BlockManager

这是我的版本信息:

火花:1.6.2

卡夫卡:0.8.2

这是 pom.xml:

0 投票
1 回答
843 浏览

apache-spark - Spark 流和 Kafka 集成

我是 Apache Spark 的新手,我一直在做一个与 Twitter 数据情感分析相关的项目,其中涉及 Spark 流和 kafka 集成。我一直在关注 github 代码(下面提供的链接)

https://github.com/sridharswamy/Twitter-Sentiment-Analysis-Using-Spark-Streaming-And-Kafka 但是在最后一个阶段,也就是 Kafka 与 Apache Spark 的集成过程中,出现如下错误

使用的命令:bin/spark-submit --packages org.apache.spark:spark-streaming-kafka_2.10:1.5.1 twitterStream.py

Apache Spark 版本:spark-2.1.0-bin-hadoop2.4

卡夫卡版本:kafka_2.11-0.10.1.1

我无法调试这个,任何帮助将不胜感激。

0 投票
1 回答
2296 浏览

apache-kafka - 火花流卡夫卡 kerberos

我正在从事从 kafka 中提取的 poc spark-streaming 工作。我可以对不安全的 kafka 0.10 集群使用相同的代码,但是当我切换到针对 ssl/kerberos ( hdp 2.5 ) 设置运行时,我遇到了一个异常:

火花会话创建得很好,但是当执行程序启动以使用主题中的新内容时,我得到了上述异常。

提交代码相当简单:

如果有帮助,我将关注michael-noll的 spark-streaming with kafka 教程

不确定需要将什么传递给我尚未通过的执行者,或者它可能只是一个 jaas 配置问题?

0 投票
2 回答
664 浏览

scala - Kafka 连接器停止的 Spark 流式传输

我开始使用 Spark 流。我想使用我在 Spark 文档中找到的示例代码从 Kafka 获取流:https ://spark.apache.org/docs/2.1.0/streaming-kafka-0-10-integration.html

这是我的代码:

一切似乎都开始顺利,但工作立即停止,日志如下:

谢谢你的帮助。

0 投票
2 回答
1922 浏览

apache-kafka - Spark Streaming 中的 Kafka createDirectStream

我正在尝试Spark Streaming + Kafka 集成指南(Kafka 代理版本 0.10.0 或更高版本)中的示例代码。代码可以正常运行,但我收不到任何记录。如果我运行 kafka-console-consumer.sh --from-beginning,我可以获得记录。有谁知道原因?我的代码如下:

我的 SBT 版本是:

谢谢!

0 投票
1 回答
386 浏览

python - Spark 流和 kafka 集成

我正在为一个用 python 编程的项目使用 kafka 和 spark 流。我想将数据从 kafka 生产者发送到我的流媒体程序。当我使用指定的依赖项执行以下命令时,它工作顺利:

./spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 ./kafkastreaming.py

有什么方法可以指定依赖项并直接运行流代码(即不使用 spark-submit 或使用 spark-submit 但不指定依赖项。)

我尝试在 spark 的 conf 目录中的 spark-defaults.conf 中指定依赖项。指定的依赖项是:1.org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 2.org.apache.spark:spark-streaming-kafka-0-8-assembly:2.1。 1

注意 - 我使用https://spark.apache.org/docs/latest/streaming-programming-guide.html中的 netcat 引用了 spark 流式指南 ,它在不使用 spark-submit 命令的情况下工作,因此我想知道我是否可以这样做卡夫卡和火花流也是如此。

0 投票
0 回答
471 浏览

apache-spark - 将 Kafka 版本 2.11-0.10.0.1 与火花流版本 2.1.1 集成

我正在尝试在独立集群模式下使用 Spark 版本 2.1.1 在火花流中运行 KafkaWordCount 示例。因为我试图集成的服务器上的 kafka 版本是 2.11-0.10.0.1 。根据https://spark.apache.org/docs/latest/streaming-kafka-integration.html有两个单独的包,一个用于 0.8.2.1 或更高版本,另一个用于 0.10.0 或更高版本。

我在 spark home 的 jars 文件夹中添加了以下 jar:

kafka_2.11-0.10.0.1.jar spark-streaming-kafka-0-10-assembly_2.11-2.1.1.jar spark-streaming-kafka-0-10_2.11-2.1.1.jar

运行此命令:

在线程“主”java.lang.NoClassDefFoundError 中显示异常:org/apache/spark/streaming/kafka/KafkaUtils$

还有其他我错过的罐子吗?

日志:

谢谢 !