问题标签 [spark-streaming]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5321 问题

0 投票

5 回答

10781 浏览

java - Spark Streaming 中的 Kafka 消费者

尝试编写使用来自 Kafka 的消息的 Spark Streaming 作业。这是我到目前为止所做的：

启动 Zookeeper
启动 Kafka 服务器
向服务器发送了一些消息。当我运行以下命令时，我可以看到它们：
/li>
现在尝试编写一个程序来计算 5 分钟内收到的消息数。

代码看起来像这样：

不确定第三个参数（消费者组）使用什么值。当我运行它时，我得到Unable to connect to zookeeper server. 但是 Zookeeper 在端口上运行2181；否则，第 3 步将无法正常工作。

好像我没有KafkaUtils.createStream正确使用。有任何想法吗？

java apache-spark apache-zookeeper apache-kafka spark-streaming

2014-11-03T23:58:00.933

0 投票

1 回答

1091 浏览

apache-kafka - Kafka消费者的缺失记录

Kafka 和 Spark-Streaming 之间存在问题，我在生产中有一个低级流量（大约 12000 - 15000 条记录/每秒）服务，起初，消耗流量似乎正常，但在 10 - 15 分钟后，突然消耗的速度几乎剩下1/10。可能是网络流量问题？

Kafka的配置：
num.network.threads=2
num.io.threads=8
socket.send.buffer.bytes=1048576
socket.receive.buffer.bytes=1048576
socket.request.max.bytes=104857600
log.flush.interval .messages=10000
log.flush.interval.ms=1000
log.retention.hours=12
log.segment.bytes=536870912
log.retention.check.interval.ms=60000
log.cleaner.enable=false
log.cleanup.interval .mins=1

火花流的配置（消费者）：

apache-kafka spark-streaming

2014-11-06T06:06:27.147

0 投票

1 回答

3080 浏览

java - 集成 Spark SQL 和 Spark Streaming 时出现不可序列化异常

这是我的源代码，我从服务器端获取一些数据，它不断生成数据流。然后对于每个 RDD ，我正在应用 SQL 模式，一旦创建了这个表，我就试图从这个 DStream 中选择一些东西。

但是它抛出了这个可序列化的异常，尽管我使用的类确实实现了序列化。

java apache-spark spark-streaming apache-spark-sql

2014-11-06T07:35:17.743

0 投票

2 回答

927 浏览

java - Exception while starting java spark-streaming application

The application throws a java.lang.NoSuchMethodException

Stacktrace

Seems issue has already been fixed in spark 1.1.0 as per this Link

Spark : 1.1.0
Kafka : 0.8.1.1

java apache-spark apache-kafka spark-streaming

2014-11-07T10:43:35.043

0 投票

1 回答

1213 浏览

scala - Spark：如何将 RDD[T]` 拆分为 Seq[RDD[T]] 并保留顺序

如何有效地将 a 拆分RDD[T]为带有元素的Seq[RDD[T]]/并保留原始顺序？Iterable[RDD[T]]n

我希望能够写出这样的东西

这应该会导致类似

spark提供这样的功能吗？如果不是，那么实现这一目标的有效方法是什么？

看起来不是很快。。

scala apache-spark spark-streaming rdd

2014-11-12T21:08:48.400

0 投票

1 回答

368 浏览

apache-spark - Spark Streaming 每 2 小时被终止一次

当我检查工作日志并发现以下错误时，Spark Streaming Application 每隔 2 小时就会被杀死一次，没有任何日志：

我还将 spark.cleaner.ttl 值设置为 10 分钟，但没有运气。

apache-spark spark-streaming

2014-11-15T14:46:53.627

0 投票

1 回答

1533 浏览

streaming - Spark Streaming——（Top K 请求）如何维护驱动程序的状态？

我有一个带有用户请求 URL 的日志流。 每分钟我都想获得一直请求的前 100 个页面并将其保存到 HDFS。

我了解如何为每个 url 维护一些请求：

但是接下来我该怎么办？显然，我需要将所有更新传递给主机以维护一个优先队列，然后每 1 分钟获取它的前 K 个。

我怎样才能做到这一点？

UPD：我已经看到了 spark 示例和 algebird 的 MapMonoid 在那里使用。但是由于我不明白它是如何工作的（奇怪的是没有在网上找到任何信息），我不想使用它。我一定有办法，对吧？

streaming apache-spark spark-streaming

2014-11-15T17:19:23.107

0 投票

0 回答

2624 浏览

apache-spark - spark ssc.textFileStream 没有流式传输新文件

我正在尝试从我尝试的 hdfs 文件夹（sparkstreaming）流式传输：

为了检查它是否是我做的好文件夹

返回 JavaDStream 不包含任何数据，我没有收到任何错误。该文件夹已包含一些文件..

有没有其他方法可以检查文件夹路径？还有其他需要检查的吗？

注意：我还尝试从本地文件中读取，然后将其放入流中，但我仍然有一个空输入（这是本次试用的代码）。我检查了我电脑上文件的位置spark-shell .. input.print() 行给出了 java.io.Exception ...

此外，第二个版本的日志显示输入存在问题：

谢谢！

apache-spark spark-streaming

2014-11-17T16:43:45.470

0 投票

1 回答

124 浏览

apache-spark - Spark Streaming 减少时是否提供日期顺序的保证

我想知道在 apache spark 流中调用 reduceByKey 时是否保证了流中记录的顺序。基本上我所做的计算的一部分必须得到最后一个值。

这是一个例子：

apache-spark reduce spark-streaming

2014-11-19T15:53:31.407

0 投票

1 回答

2482 浏览

apache-spark - 如何将 DStream 与非流文件连接起来？

我想将 DStream 中的每个 RDD 与非流式、不变的参考文件一起加入。这是我的代码：

我收到很多很多错误，最常见的是：

我认为我应该广播 geoData 而不是在每个任务中读取它（它是一个 100MB 的文件），但我不确定将第一次初始化 geoData 的代码放在哪里。

另外我不确定 geoData 是否定义正确（也许它应该使用 ssc 而不是 sc？）。我看到的文档只列出了转换和连接，但没有显示静态文件是如何创建的。

关于如何广播 geoData 然后将其加入每个流式 RDD 的任何想法？

apache-spark spark-streaming

2014-11-20T05:51:31.140

1 2 3 4 5 6 7 8 9 10