问题标签 [spark-streaming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 使用火花流处理实时数据包
我已经使用 jnetpcap 接收到实时数据包。谁能告诉我如何使用火花流从实时数据包中提取数据包头和其他详细信息?
scala - 如何访问 jar 中的静态资源(对应于 src/main/resources 文件夹)?
我有一个使用 Maven(作为 jar)构建并使用脚本部署的Spark Streaming应用程序。spark-submit
应用项目布局遵循标准目录布局:
在DoSomething.scala
对象中,我有一个方法(我们称之为doSomething()
)尝试执行 Perl 脚本—— aPerlScript.pl
(从resources
文件夹中)——使用scala.sys.process.Process
并向脚本传递两个参数(第一个是二进制文件的绝对路径,用作输入,第二个是生成的输出文件的路径/名称)。然后我打电话DoSomething.doSomething()
。
问题是我无法访问脚本,不能使用绝对路径、相对路径、getClass.getClassLoader.getResource、getClass.getResource,我已经在我的pom.xml
. 我的尝试都没有成功。我不知道如何找到我放在 src/main/resources 中的东西。
我将不胜感激。
旁注:
- 我使用外部流程而不是 Spark 管道,因为在我的工作流程的这一步,我必须将二进制文件作为输入和输出来处理。
- 我正在使用 Spark-streaming 1.1.0、Scala 2.10.4 和 Java 7。我在 Eclipse (Kepler) 中使用“Maven install”构建 jar
- 当我使用
getClass.getClassLoader.getResource
“标准”方法访问资源时,我发现实际的类路径是spark-submit
脚本的路径。
apache-spark - 阅读最新的 spark kafka 流媒体
我希望使用 kafka 仅读取 spark 流中的最新消息,但它也会获取过去的数据
如何在 KafkaUtil 中为 spark 设置 auto.offset.reset
如何将 conf 设置为仅获取当前消息。请举一些例子。
提前谢谢,还有另一个线程
但还不够,请帮帮我。提前致谢。
apache-spark - 运行名为 KafkaWordCount 的 Kafka 和 Spark Streaming 示例失败
我研究了http://rishiverma.com/software/blog/2014/07/31/spark-streaming-and-kafka-quickstart/上的名为 KafkaWordCount 的示例
顺便说一句,我修改了一些无关紧要的细节。而当我到最后一步构建Kafka消费者时,它失败了,并说:
有人遇到过这种失败吗?
apache-spark - Apache Spark 流式传输简单应用程序不起作用
我在 Apache Spark Streaming 库上有以下问题。我重写了一个简单的“字数统计”独立应用程序来查看流是如何工作的,所以这里是代码:
当我运行这个独立的应用程序时,日志会循环以下几行:
在网络用户界面上,我可以看到以下屏幕截图:
显然,当我写一些示例单词时, netcat -lk 9999 没有做任何事情。
有人可以帮我弄清楚这个例子是如何工作的吗?
谢谢
cluster-computing - Spark Streaming 计算作业划分为不同的节点
假设我们的集群中有 20 个节点。operation1是统计1s时间窗的字数,operation2是对operation1在60s时间窗上的结果求和(结果当然是60s时间窗上的字数)。但是有什么方法可以指定节点 1-10 执行操作 1,节点 11-20 执行操作 2?谢谢!
apache-spark - Spark Streaming 独立应用程序和依赖项
我有一个从 IntelliJ 内部运行的 scala spark 流应用程序。当我针对本地 [2] 运行时,它运行良好。如果我将 master 设置为 spark://masterip:port,则会出现以下异常:
我应该补充一点,我在同一个名为 RmqReceiver 的项目中实现了一个自定义接收器。这是我的应用程序代码:
RmqReceiver 类与 Streamer 位于同一 scala 文件夹中。我知道将 spark-submit 与 --jars 用于依赖项可能会使这项工作。有没有办法从应用程序内部得到这个工作?
apache-spark - 同时使用 Spark 2 应用程序
我正在使用火花流并将处理后的输出保存在 data.csv 文件中
同时,我想读取 NetworkWordCount data.csv 的输出以及另一个新文件并同时再次处理它
我的问题是
是否可以同时运行两个 spark 应用程序?是否可以通过代码本身提交spark应用程序
我正在使用 mac,现在我使用以下命令从 spark 文件夹提交 spark 应用程序
或者只是没有 spark:ip:port 和执行器内存,总执行器核心
以及读取文本文件进行批处理的其他应用程序如下
当我分别运行应用程序 SparkStreamingTest 和 BatchTest 时都可以正常工作,但是当我尝试同时运行两者时,出现以下错误
目前我正在使用火花独立模式
任何帮助都非常感谢..我完全不在意
scala - 如何对具有偏移量的两个窗口化 DStream 执行操作?
我想计算两个具有不同窗口的 DStream 的差异(按键)。这可以通过连接来完成。但是,我想在 DStreams 之间有一个偏移量。一种方法是删除其中一个 DStream 的 N 个窗口,但我也不知道该怎么做。
apache-spark - Spark Streaming 缓存和转换
我是 spark 新手,我正在使用 Spark 流式传输和 Kafka ..
我的流媒体持续时间是 1 秒。
假设我在第一批中获得 100 条记录,在第二批中获得 120 条记录,在第三批中获得 80 条记录
我在第一批中应用我的逻辑并得到结果 => result1
我想在处理第二批时使用 result1 并将第二批的 result1 和 120 条记录的组合结果作为 => result2
我试图缓存结果,但我无法在 2 秒内获得缓存的结果 1 可能吗?或说明如何在这里实现我的目标?
我处理消息并找到结果为 1 秒的单词。
在第二批中,resultCp 不应为空,但它返回空值,因此在任何给定时间,我只有特定的秒数据,我想找到累积结果。有没有人知道怎么做..
我了解到,一旦启动火花流jssc.start()
,控制就不再是我们的终点,它取决于火花。那么是否可以将第一批的结果发送到第二批以查找累积值?
非常感谢任何帮助。提前致谢。