问题标签 [dstream]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1544 浏览

apache-spark - 如何在 Spark Streaming 中跨多个批处理间隔传输数据流

我正在使用 Apache Spark Streaming 1.6.1 编写一个 Java 应用程序,该应用程序连接两个键/值数据流并将输出写入 HDFS。这两个数据流包含 K/V 字符串,并使用 textFileStream() 从 HDFS 定期摄取到 Spark 中。

两个数据流不同步,这意味着在 t0 时刻在 stream1 中的某些键可能在 t1 时刻出现在 stream2 中,反之亦然。因此,我的目标是连接两个流并计算“剩余”键,这应该在下一个批处理间隔中考虑用于连接操作。

为了更好地阐明这一点,请查看以下算法:

我试图用 Spark Streaming 实现这个算法没有成功。最初,我以这种方式为剩余键创建了两个空流(这只是一个流,但生成第二个流的代码类似):

稍后,这个空流与stream1 统一(即union()),最后,在join 之后,我添加了stream1 的剩余键并调用window()。stream2 也是如此。

问题是生成 left_keys_s1 和 left_keys_s2 的操作是没有操作的转换,这意味着 Spark 不会创建任何 RDD 流图,因此它们永远不会被执行。我现在得到的是一个连接,它只输出键在同一时间间隔内位于 stream1 和 stream2 中的记录。

你们有什么建议可以用 Spark 正确实现吗?

谢谢,马可

0 投票
1 回答
600 浏览

apache-spark - 如何使用 Pyspark 组合两个 Dstream(类似于普通 RDD 上的 .zip)

我知道我们可以在 pyspark 中组合(如 R 中的 cbind)两个 RDD,如下所示:

我想对 pyspark 中的两个 Dstream 执行相同的操作。是否有可能或任何替代方案?

事实上,我正在使用 MLlib 随机森林模型来预测使用火花流。最后,我想将特征 Dstream 和预测 Dstream 结合在一起进行进一步的下游处理。

提前致谢。

-奥贝德

0 投票
1 回答
1501 浏览

apache-spark - 跨 dstream 的不同元素

我正在研究窗口 dstream,其中每个 dstream 包含 3 个带有以下键的 rdd:

我只想获得所有 dstream 中的唯一键

如何在火花流中做到这一点?

0 投票
0 回答
1070 浏览

apache-spark - Spark Streaming:一直以来的平均值

我编写了一个 Spark Streaming 应用程序,它接收温度值并计算所有时间的平均温度。为此,我使用JavaPairDStream.updateStateByKey事务来计算每个设备(由 Pair 的密钥分隔)。对于状态跟踪,我使用该类,它将所有温度值保存为双精度值,并通过调用该方法StatCounter重新计算每个流的平均值。StatCounter.mean这是我的程序:

编辑了我的全部代码:现在使用 StatCounter

这似乎工作正常。但现在问题是:

我刚刚在网上找到了一个示例,该示例还显示了如何在这里计算所有时间的平均值:https ://databricks.gitbooks.io/databricks-spark-reference-applications/content/logs_analyzer/chapter1/total.html

他们使用AtmoicLongsetc. 来存储“有状态值”并在forEachRDD方法中更新它们。

我现在的问题是:对于 Spark Streaming 中所有时间的有状态计算,更好的解决方案是什么?使用一种或另一种方式有什么优点/缺点吗?谢谢!

0 投票
1 回答
389 浏览

scala - 如何在使用 Scala 的 Spark Streaming 中获得两个 DStream 的笛卡尔积?

我有两个 DStream。让A:DStream[X]B:DStream[Y]

我想得到它们的笛卡尔积,换句话说,一个新C:DStream[(X, Y)] 的包含所有对XY值。

我知道 RDD 有一个cartesian功能。我只能找到这个类似的问题,但它是在 Java 中的,所以没有回答我的问题。

0 投票
2 回答
2762 浏览

hbase - 通过 Spark Streaming 从 HBase 读取数据

所以我的项目流程是 Kafka -> Spark Streaming -> HBase

现在我想再次从 HBase 读取数据,这将遍历上一个作业创建的表并进行一些聚合并将其以不同的列格式存储在另一个表中

Kafka->Spark Streaming(2ms)->HBase->Spark Streaming(10ms)->HBase

现在我不知道如何使用 Spark Streaming 从 HBase 读取数据。我找到了一个 Cloudera 实验室项目,它是 SparkOnHbase(http://blog.cloudera.com/blog/2014/12/new-in-cloudera-labs-sparkonhbase/)库,但我不知道如何获得inputDStream 用于来自 HBase 的流处理。如果有任何可以帮助我做到这一点,请提供任何指针或库链接。

0 投票
0 回答
1009 浏览

python - 无法使用 pyspark 从 json dstream 创建数据帧

我正在尝试从 dstream 中的 json 创建一个数据框,但下面的代码似乎没有正确获取数据框 -

没有错误,但是当脚本运行时,它确实从流上下文中成功读取了 json,但是它不会打印摘要中的值或数据帧模式。

我正在尝试阅读的示例 json -

{“reviewerID”:“A2IBPI20UZIR0U”,“asin”:“1384719342”,“reviewerName”:“cassandra tu \“是的,好吧,就像,你......”,“有帮助”:[0, 0], "reviewText": "这里没什么可写的,但它确实做到了它应该做的事情。过滤掉流行的声音。现在我的录音更加清晰。它是亚马逊上最低价格的弹出过滤器之一,所以不妨购买它,尽管定价相同,但它们确实工作相同,“,”整体“:5.0,“总结”:“好”,“unixReviewTime”:1393545600,“评论时间": "2014 年 2 月 28 日"}

我绝对是激发流媒体的新手,并通过阅读文档开始从事宠物项目。非常感谢任何帮助和指导。

0 投票
0 回答
461 浏览

scala - Spark JSON DStream Print() / saveAsTextFiles 不工作

在 Spark-shell 本地模式下执行的代码:

这不起作用——显示没有输出——尝试在 spark-shell 上从 Kafka 读取流

也尝试了以下方法 - 不起作用:

此外,尝试解析模式转换为数据框,但似乎没有任何效果

正常的 json 解析正在工作,我可以打印正常的内容 //RDD/DF //到 Spark-shell 中的控制台

有人可以帮忙吗?

0 投票
1 回答
293 浏览

apache-spark - 如何在 Scala 中的两个 DStream 之间执行压缩?

我有两个窗口 dstream,我想像 RDD 中的正常压缩一样压缩它们。

注意:主要目标是计算窗口 dstream 的均值和标准差,以防有更好的计算方法。

0 投票
1 回答
1019 浏览

scala - 对 DStream 进行排序并取 topN

我在 Spark Scala 中有一些 DStream,我想对其进行排序,然后取前 N 个。问题是,每当我尝试运行它时,我都会得到NotSerializableException异常消息:

这是因为 DStream 对象是从闭包中引用的。

问题是我不知道如何解决它:

这是我的尝试:

我不介意任何其他对 DStream 进行排序并获得其前 N 的方法,而不是我的方法。