问题标签 [spark-streaming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 为什么 Spark JobScheduler 中出现空指针异常?
我得到这个例外:
知道可能是什么原因造成的吗?我正在使用自定义接收器运行 Spark Streaming 作业。接收器停止,但仍有待处理的数据。
所以它在停止之前等待数据被处理。因为 stopGracefully 设置为 true。
但是在处理所有数据之前,我收到了这个错误。
apache-spark - Spark Streaming:无法计算拆分,未找到块
我正在尝试将 Spark Streaming 与 Kafka(版本 1.1.0)一起使用,但由于此错误,Spark 作业不断崩溃:
我从日志中获得的唯一相关信息是:
示例代码:
我不确定这个问题的原因是什么。
apache-storm - SparkStreaming 和 Storm 的区别
我正在对实时 twitter 流数据进行一些分析。我听说过 Spark Streaming。我想知道哪种方法最适合实时流数据分析,因为我的数据从源头来得非常快。
json - Spark Streaming 中的 UnknownHostExceptionError
我希望我的代码能够读取每分钟生成的 json 文本文件(它是来自 Citibike 的车站馈送数据),并且我尝试使用 Spark Streaming。但我不断收到未知主机异常错误。
我的代码:
和错误:
scala - 如何打包 spark scala 应用程序
我开发了一个使用 SparkSQL 和 SparkStreaming 的独立 spark scala 应用程序。
这在为 spark 配置的 Eclipse 中运行良好。
我是 Maven 的新手。
要使用 maven 打包此应用程序,我已按照以下教程进行操作
http://ryancompton.net/2014/05/19/sample-pomxml-to-build-scala--jar-with-dependenciesjar/
但最终出现以下错误。
请提供有关如何打包我的应用程序并在集群中运行的解决方案。
apache-spark - 你能在火花流中级联滑动时间窗口吗
我想知道是否可以使用 Sparks Streaming 将滑动窗口级联到另一个。
因此,例如,我每 1 秒就有一次计数。我想总结 5、15 和 30 秒的窗口。我想知道是否可以将 5 秒的窗口结果用于 15 秒的结果,将 15 秒的结果用于 30 秒。
目的是避免为最长窗口的长度存储所有输入的 1 秒更新(因为这里的粒度无关紧要)。相反,我们以与我们需要的频率相匹配的频率重用 Dstream。
这是和示例:
我试过了,但没有打印出来。
java - Spark Streaming 不对读取块执行操作
我是 Spark Streaming 概念的新手,最近两天一直在试图理解来自 socket 的 Spark 流。我看到 Spark 能够读取传递给套接字的块。但是,它不对读取的块执行任何操作。
这是火花代码
我正在运行 netcat 在指定端口上创建输出流
我试图创建输出流。这是我的java代码
Spark 消耗在流上发送的块,但它不对流块执行任何所需的操作。
火花输出控制台
我会很感激你的帮助。提前致谢
java - Spark Streaming App 通过代码提交
我正在尝试通过代码提交火花流应用程序
已经给出了 SparkJar 和 sparkHome 的绝对路径master spark://xyz:7077
我尝试以相同的方式提交批处理并且它有效但不适用于流媒体我收到以下错误..
我用的是maven,下面是我的pom.xml
我在异常之后得到了这个异常
然后我评论 javax.servlet
了依赖..之后我得到了第一个提到的错误..还请建议如何排除依赖..我尝试将范围作为编译和提供但没有工作..
任何帮助深表感谢
我的 Pom 树如下
如何在核心火花的hadoop依赖中排除javax.servlet?
hadoop - Kafka Spark 流式传输:无法读取消息
我正在使用 spark-streaming 集成 Kafka 和 Spark。我作为 kafka 制作人创建了一个主题:
我在 kafka 中发布消息并尝试使用 spark-streaming java 代码读取它们并将它们显示在屏幕上。
守护进程全部启动:Spark-master,worker;动物园管理员;卡夫卡。
我正在编写一个 java 代码,使用 KafkaUtils.createStream
代码如下:
我正在运行这项工作,而在其他终端我正在运行 kafka-producer 来发布消息:
但是 spark-streaming 控制台的输出日志不显示消息,但显示接收到零块:
为什么没有收到数据块?我已经尝试在控制台上使用 kafka producer-consumerbin/kafka-console-producer....
并且bin/kafka-console-consumer...
它的工作完美,但为什么不是我的代码......任何想法?
pcap - 使用 jnetpcap 库解码 ARP 数据包
尝试使用 jnetpcap 库读取数据包时发生以下错误。可能是什么原因 ?
但它也能够读取一些 Tcp 、 Udp 数据包。