2

我目前正在从事一项小型 Spark 工作,以从 DStream 计算股票相关矩阵。

从 DStream[(time, quote)] 开始,我需要在计算相关性(考虑 rdds 的所有引号)之前在多个 rdds 之间按时间(Long)聚合引号(double)

dstream.reduceByKeyAndWindow{./*aggregate quotes in Vectors*/..} 
       .forEachRDD {rdd => Statistics.corr(RDD[Vector])}

在我看来,如果生成的 dstream(来自 reduceByKeyAndWindow)仅包含 1 个带有所有聚合引号的 rdd,这可能是一个解决方案。

但我不确定。reduceByKeyAndWindow 后数据如何分布?有没有办法在 dstream 中合并 rdds?

4

0 回答 0