问题标签 [spark-streaming-kafka]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-kafka - 从火花流中的kafka消息中提取时间戳?
试图从卡夫卡源读取。我想从收到的消息中提取时间戳以进行结构化火花流。kafka(0.10.0.0 版)火花流(2.0.1 版)
apache-spark - Spark Streaming Kafka 消费者不喜欢 DStream
我正在使用 Spark Shell(Scala 2.10 和 Spark Streaming org.apache.spark:spark-streaming-kafka-0-10_2.10:2.0.1
)来测试 Spark/Kafka 消费者:
当我运行它时,我得到以下异常:
我一遍又一遍地检查了 Scala/API 文档,这段代码看起来应该可以正确执行。知道我要去哪里出错吗?
scala - 火花流 + kafka - 火花会话 API
感谢您帮助使用 spark 2.0.2 运行 spark 流程序。
运行错误"java.lang.ClassNotFoundException: Failed to find data source: kafka"
。修改后的POM文件如下。
正在创建 Spark,但在调用来自 kafka 的负载时出错。
创建火花会话:
创建 kafka 流:
错误信息:
POM.XML:
apache-spark - 获取 java.lang.NoClassDefFoundError: kafka/serializer/StringDecoder Exception,同时从 Spark 流式传输 kafka
我正在尝试从 spark 流应用程序中读取 kafka 流数据;在读取数据的过程中,我遇到了以下异常:
16/12/24 11:09:05 INFO storage.BlockManagerMaster: Registered BlockManager
这是我的版本信息:
火花:1.6.2
卡夫卡:0.8.2
这是 pom.xml:
apache-spark - Spark 流和 Kafka 集成
我是 Apache Spark 的新手,我一直在做一个与 Twitter 数据情感分析相关的项目,其中涉及 Spark 流和 kafka 集成。我一直在关注 github 代码(下面提供的链接)
https://github.com/sridharswamy/Twitter-Sentiment-Analysis-Using-Spark-Streaming-And-Kafka 但是在最后一个阶段,也就是 Kafka 与 Apache Spark 的集成过程中,出现如下错误
使用的命令:bin/spark-submit --packages org.apache.spark:spark-streaming-kafka_2.10:1.5.1 twitterStream.py
Apache Spark 版本:spark-2.1.0-bin-hadoop2.4
卡夫卡版本:kafka_2.11-0.10.1.1
我无法调试这个,任何帮助将不胜感激。
apache-kafka - 火花流卡夫卡 kerberos
我正在从事从 kafka 中提取的 poc spark-streaming 工作。我可以对不安全的 kafka 0.10 集群使用相同的代码,但是当我切换到针对 ssl/kerberos ( hdp 2.5 ) 设置运行时,我遇到了一个异常:
火花会话创建得很好,但是当执行程序启动以使用主题中的新内容时,我得到了上述异常。
提交代码相当简单:
如果有帮助,我将关注michael-noll的 spark-streaming with kafka 教程
不确定需要将什么传递给我尚未通过的执行者,或者它可能只是一个 jaas 配置问题?
scala - Kafka 连接器停止的 Spark 流式传输
我开始使用 Spark 流。我想使用我在 Spark 文档中找到的示例代码从 Kafka 获取流:https ://spark.apache.org/docs/2.1.0/streaming-kafka-0-10-integration.html
这是我的代码:
一切似乎都开始顺利,但工作立即停止,日志如下:
谢谢你的帮助。
apache-kafka - Spark Streaming 中的 Kafka createDirectStream
我正在尝试Spark Streaming + Kafka 集成指南(Kafka 代理版本 0.10.0 或更高版本)中的示例代码。代码可以正常运行,但我收不到任何记录。如果我运行 kafka-console-consumer.sh --from-beginning,我可以获得记录。有谁知道原因?我的代码如下:
我的 SBT 版本是:
谢谢!
python - Spark 流和 kafka 集成
我正在为一个用 python 编程的项目使用 kafka 和 spark 流。我想将数据从 kafka 生产者发送到我的流媒体程序。当我使用指定的依赖项执行以下命令时,它工作顺利:
./spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 ./kafkastreaming.py
有什么方法可以指定依赖项并直接运行流代码(即不使用 spark-submit 或使用 spark-submit 但不指定依赖项。)
我尝试在 spark 的 conf 目录中的 spark-defaults.conf 中指定依赖项。指定的依赖项是:1.org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 2.org.apache.spark:spark-streaming-kafka-0-8-assembly:2.1。 1
注意 - 我使用https://spark.apache.org/docs/latest/streaming-programming-guide.html中的 netcat 引用了 spark 流式指南 ,它在不使用 spark-submit 命令的情况下工作,因此我想知道我是否可以这样做卡夫卡和火花流也是如此。
apache-spark - 将 Kafka 版本 2.11-0.10.0.1 与火花流版本 2.1.1 集成
我正在尝试在独立集群模式下使用 Spark 版本 2.1.1 在火花流中运行 KafkaWordCount 示例。因为我试图集成的服务器上的 kafka 版本是 2.11-0.10.0.1 。根据https://spark.apache.org/docs/latest/streaming-kafka-integration.html有两个单独的包,一个用于 0.8.2.1 或更高版本,另一个用于 0.10.0 或更高版本。
我在 spark home 的 jars 文件夹中添加了以下 jar:
kafka_2.11-0.10.0.1.jar
spark-streaming-kafka-0-10-assembly_2.11-2.1.1.jar
spark-streaming-kafka-0-10_2.11-2.1.1.jar
运行此命令:
在线程“主”java.lang.NoClassDefFoundError 中显示异常:org/apache/spark/streaming/kafka/KafkaUtils$
还有其他我错过的罐子吗?
日志:
谢谢 !