问题标签 [spark-streaming-kafka]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

227 问题

0 投票

2 回答

3710 浏览

apache-kafka - 从火花流中的kafka消息中提取时间戳？

试图从卡夫卡源读取。我想从收到的消息中提取时间戳以进行结构化火花流。kafka（0.10.0.0 版）火花流（2.0.1 版）

2016-11-14T10:34:28.857

0 投票

1 回答

1309 浏览

apache-spark - Spark Streaming Kafka 消费者不喜欢 DStream

我正在使用 Spark Shell（Scala 2.10 和 Spark Streaming org.apache.spark:spark-streaming-kafka-0-10_2.10:2.0.1）来测试 Spark/Kafka 消费者：

当我运行它时，我得到以下异常：

我一遍又一遍地检查了 Scala/API 文档，这段代码看起来应该可以正确执行。知道我要去哪里出错吗？

apache-spark apache-kafka spark-streaming kafka-consumer-api spark-streaming-kafka

2016-11-15T14:52:31.077

0 投票

3 回答

2952 浏览

scala - 火花流 + kafka - 火花会话 API

感谢您帮助使用 spark 2.0.2 运行 spark 流程序。

运行错误"java.lang.ClassNotFoundException: Failed to find data source: kafka"。修改后的POM文件如下。

正在创建 Spark，但在调用来自 kafka 的负载时出错。

创建火花会话：

创建 kafka 流：

错误信息：

POM.XML：

scala apache-spark apache-kafka spark-streaming-kafka

2016-12-12T12:07:28.103

0 投票

2 回答

1897 浏览

apache-spark - 获取 java.lang.NoClassDefFoundError: kafka/serializer/StringDecoder Exception，同时从 Spark 流式传输 kafka

我正在尝试从 spark 流应用程序中读取 kafka 流数据；在读取数据的过程中，我遇到了以下异常：

16/12/24 11:09:05 INFO storage.BlockManagerMaster: Registered BlockManager

这是我的版本信息：

火花：1.6.2

卡夫卡：0.8.2

这是 pom.xml：

apache-spark apache-kafka streaming spark-streaming spark-streaming-kafka

2016-12-24T06:11:53.710

0 投票

1 回答

843 浏览

apache-spark - Spark 流和 Kafka 集成

我是 Apache Spark 的新手，我一直在做一个与 Twitter 数据情感分析相关的项目，其中涉及 Spark 流和 kafka 集成。我一直在关注 github 代码（下面提供的链接）

https://github.com/sridharswamy/Twitter-Sentiment-Analysis-Using-Spark-Streaming-And-Kafka 但是在最后一个阶段，也就是 Kafka 与 Apache Spark 的集成过程中，出现如下错误

使用的命令：bin/spark-submit --packages org.apache.spark:spark-streaming-kafka_2.10:1.5.1 twitterStream.py

Apache Spark 版本：spark-2.1.0-bin-hadoop2.4

卡夫卡版本：kafka_2.11-0.10.1.1

我无法调试这个，任何帮助将不胜感激。

apache-spark apache-kafka spark-streaming sentiment-analysis spark-streaming-kafka

2017-02-12T06:38:23.370

0 投票

1 回答

2296 浏览

apache-kafka - 火花流卡夫卡 kerberos

我正在从事从 kafka 中提取的 poc spark-streaming 工作。我可以对不安全的 kafka 0.10 集群使用相同的代码，但是当我切换到针对 ssl/kerberos ( hdp 2.5 ) 设置运行时，我遇到了一个异常：

火花会话创建得很好，但是当执行程序启动以使用主题中的新内容时，我得到了上述异常。

提交代码相当简单：

如果有帮助，我将关注michael-noll的 spark-streaming with kafka 教程

不确定需要将什么传递给我尚未通过的执行者，或者它可能只是一个 jaas 配置问题？

apache-kafka spark-streaming spark-streaming-kafka

2017-04-03T17:26:47.070

0 投票

2 回答

664 浏览

scala - Kafka 连接器停止的 Spark 流式传输

我开始使用 Spark 流。我想使用我在 Spark 文档中找到的示例代码从 Kafka 获取流：https ://spark.apache.org/docs/2.1.0/streaming-kafka-0-10-integration.html

这是我的代码：

一切似乎都开始顺利，但工作立即停止，日志如下：

谢谢你的帮助。

scala apache-kafka spark-streaming spark-streaming-kafka

2017-04-19T13:27:13.160

0 投票

2 回答

1922 浏览

apache-kafka - Spark Streaming 中的 Kafka createDirectStream

我正在尝试Spark Streaming + Kafka 集成指南（Kafka 代理版本 0.10.0 或更高版本）中的示例代码。代码可以正常运行，但我收不到任何记录。如果我运行 kafka-console-consumer.sh --from-beginning，我可以获得记录。有谁知道原因？我的代码如下：

我的 SBT 版本是：

谢谢！

apache-kafka spark-streaming spark-streaming-kafka

2017-06-22T14:43:06.327

0 投票

1 回答

386 浏览

python - Spark 流和 kafka 集成

我正在为一个用 python 编程的项目使用 kafka 和 spark 流。我想将数据从 kafka 生产者发送到我的流媒体程序。当我使用指定的依赖项执行以下命令时，它工作顺利：

./spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 ./kafkastreaming.py

有什么方法可以指定依赖项并直接运行流代码（即不使用 spark-submit 或使用 spark-submit 但不指定依赖项。）

我尝试在 spark 的 conf 目录中的 spark-defaults.conf 中指定依赖项。指定的依赖项是：1.org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 2.org.apache.spark:spark-streaming-kafka-0-8-assembly:2.1。 1

注意 - 我使用https://spark.apache.org/docs/latest/streaming-programming-guide.html中的 netcat 引用了 spark 流式指南，它在不使用 spark-submit 命令的情况下工作，因此我想知道我是否可以这样做卡夫卡和火花流也是如此。

python apache-spark apache-kafka spark-streaming spark-streaming-kafka

2017-06-26T08:41:59.133

0 投票

0 回答

471 浏览

apache-spark - 将 Kafka 版本 2.11-0.10.0.1 与火花流版本 2.1.1 集成

我正在尝试在独立集群模式下使用 Spark 版本 2.1.1 在火花流中运行 KafkaWordCount 示例。因为我试图集成的服务器上的 kafka 版本是 2.11-0.10.0.1 。根据https://spark.apache.org/docs/latest/streaming-kafka-integration.html有两个单独的包，一个用于 0.8.2.1 或更高版本，另一个用于 0.10.0 或更高版本。

我在 spark home 的 jars 文件夹中添加了以下 jar：

kafka_2.11-0.10.0.1.jar spark-streaming-kafka-0-10-assembly_2.11-2.1.1.jar spark-streaming-kafka-0-10_2.11-2.1.1.jar

运行此命令：

在线程“主”java.lang.NoClassDefFoundError 中显示异常：org/apache/spark/streaming/kafka/KafkaUtils$

还有其他我错过的罐子吗？

日志：

谢谢！

apache-spark apache-kafka spark-streaming spark-streaming-kafka

2017-07-11T08:13:44.903

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-streaming-kafka]

Reference