问题标签 [spark-streaming]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5321 问题

0 投票

1 回答

4377 浏览

scala - Spark Streaming 窗口操作

以下是获取 30 秒窗口大小和 10 秒幻灯片大小的字数的简单代码。

但是，我从这一行得到错误：

. 特别是，从_ + _. 错误是

谁能告诉我问题是什么？谢谢！

scala distributed apache-spark spark-streaming

2014-07-22T16:21:50.260

0 投票

0 回答

1212 浏览

amazon-ec2 - Use Spark to stream the contents of an S3 bucket that is constantly updated

I have an app that exports files to an S3 bucket every certain amount of time. I need to develop a Spark Streaming app that streams from this bucket and delivers the lines of the new files every 30 secs.

I have read this post which helped me understanding about the credentials, but still won’t address my needs.

Q1. Could anyone provide some code or hint on how to do this? I’ve seen the twitter example but I could not figure out how to apply it to my scenario.

Q2. How does Spark Streaming know which was the last file that streamed before picking up the next one? Is this based on the file’s LastModified header or some sort of timestamp?

Q3. If the cluster goes down, how do I manage to start streaming from where I left?

Thanks in advance!!

amazon-ec2 amazon-s3 apache-spark spark-streaming

2014-08-04T01:53:03.520

0 投票

1 回答

605 浏览

scala - 用于捕获网络流量的 Spark 接收器

我想写一个火花流应用程序。我编写了一个使用 java 库捕获数据包的 scala 代码。现在，我想将这些数据包发送到火花流接收程序（0.9）。我应该编写一个新的 spark 接收器代码还是可以在已经编写的 scala 代码中创建接收器来捕获数据包？怎么做到呢？谁能帮帮我。

scala networking apache-spark spark-streaming

2014-08-07T06:01:21.260

0 投票

2 回答

1209 浏览

apache-spark - 在 spark 或 spark 流中，如何配置 log4j 属性，以便控制台中不会打印太多日志？

当我尝试运行 spark 流程序时，控制台中打印了太多日志。你能推荐一个好的配置，这样我只能在形成方面得到帮助吗？

apache-spark spark-streaming

2014-08-19T18:55:51.743

0 投票

1 回答

4771 浏览

sql - 尝试通过 Spark Streaming 运行 SparkSQL

我正在尝试对 Spark 中的流数据运行 SQL 查询。这看起来很简单，但是当我尝试它时，我得到错误table not found : tablename >。它无法找到我注册的表。

将 Spark SQL 与批处理数据一起使用可以正常工作，所以我认为这与我调用 streamingcontext.start() 的方式有关。任何想法是什么问题？这是代码：

欢迎任何建议。谢谢。

sql apache-spark spark-streaming

2014-08-21T05:18:00.273

0 投票

3 回答

1573 浏览

scala - 如何反序列化进入 Spark 的 Flume 的 Avro 事件？

我有读取水槽的 Flume Avro 水槽和 SparkStreaming 程序。CDH 5.1、Flume 1.5.0、Spark 1.0，使用 Scala 作为 Spark 上的程序语言

我能够制作 Spark 示例并计算 Flume Avro 事件。

但是我无法将 Flume Avro 事件序列化为字符串\文本，然后解析结构行。

有没有人有一个如何使用 Scala 的例子？

scala apache-spark flume flume-ng spark-streaming

2014-08-25T08:30:32.853

0 投票

2 回答

12322 浏览

apache-spark - 基于 Spark 流的 SQL

这是在 Spark Streaming 上运行简单 SQL 查询的代码。

如您所见，要在流上运行 SQL，必须在 foreachRDD 方法中进行查询。我想对从两个不同流接收的数据运行 SQL 连接。有什么办法可以做到吗？

apache-spark spark-streaming

2014-08-25T11:26:43.133

0 投票

1 回答

5317 浏览

apache-spark - 如何让 Spark Streaming (Spark 1.0.0) 从 Kafka (Kafka Broker 0.8.1) 读取最新数据

我的 Spark 流应用程序从 Kafka 获取数据并对其进行处理。

如果应用程序发生故障，Kafka 中会存储大量数据，并且在下次启动 Spark Streaming 应用程序时，它会因为一次消耗的数据过多而崩溃。由于我的应用程序不关心过去的数据，因此只使用当前（最新）数据是完全可以的。

我找到了“auto.reset.offest”选项，它在 Spark 中的行为几乎没有什么不同。如果已配置，它将删除存储在 zookeeper 中的偏移量。然而，尽管它的行为出人意料，但它应该在删除后从最新的数据中获取数据。

但我发现不是。我看到在使用数据之前清除了所有偏移量。然后，由于默认行为，它应该按预期获取数据。但是由于数据过多，它仍然会崩溃。

当我使用“Kafka-Console-Consumer”清理偏移量并使用最新的数据并运行我的应用程序时，它按预期工作。

所以看起来“auto.reset.offset”不起作用，并且火花流中的kafka消费者默认从“最小”偏移量获取数据。

您对如何使用最新的 Spark 流中的 Kafka 数据有任何想法吗？

我正在使用 spark-1.0.0 和 Kafka-2.10-0.8.1。

提前致谢。

apache-spark apache-kafka spark-streaming offset kafka-consumer-api

2014-08-26T09:56:35.520

0 投票

1 回答

2570 浏览

scala - Spark Streaming Twitter 示例：使用 TwitterUtils.createStream 时出现 NoClassDefFoundError

我正在尝试实施http://ampcamp.berkeley.edu/big-data-mini-course/realtime-processing-with-spark-streaming.html或http://www.pwendell.com/2013/09/ 28/declarative-streams.html（虽然这使用了过时的 Spark 版本），但我一直以：

线程“主”java.lang.NoClassDefFoundError 中的异常：org/apache/spark/streaming/dstream/NetworkInputDStream

下面是一些导致问题的示例代码：

另外，我正在使用 Scala 和 Eclipse

谢谢！（如果有帮助，我可以打印更多错误或输出）

scala apache-spark spark-streaming

2014-08-27T19:37:19.957

0 投票

1 回答

81 浏览

apache-spark - 确保火花流中的对象在特定节点上运行

假设您有一个火花流设置，例如

有什么方法可以确保将 JavaRandomReceiver 和 JavaSyncBarrier 分发到同一个节点？或者这甚至是一个有意义的问题？

一些关于 spark-streaming 如何跨集群分配工作的信息也将不胜感激。

apache-spark spark-streaming

2014-08-29T08:21:33.170

1 2 3 4 5 6 7 8 9 10