我目前正在从事一项小型 Spark 工作,以从 DStream 计算股票相关矩阵。
从 DStream[(time, quote)] 开始,我需要在计算相关性(考虑 rdds 的所有引号)之前在多个 rdds 之间按时间(Long)聚合引号(double)
dstream.reduceByKeyAndWindow{./*aggregate quotes in Vectors*/..}
.forEachRDD {rdd => Statistics.corr(RDD[Vector])}
在我看来,如果生成的 dstream(来自 reduceByKeyAndWindow)仅包含 1 个带有所有聚合引号的 rdd,这可能是一个解决方案。
但我不确定。reduceByKeyAndWindow 后数据如何分布?有没有办法在 dstream 中合并 rdds?