我的问题在单节点环境中回答起来相当简单,但我不知道如何在分布式 Spark 环境中做同样的事情。我现在拥有的是一个“频率图”,其中对于每个项目我都有它出现的次数。例如,它可能是这样的: (1, 2), (2, 3), (3,1)
这意味着 1 发生了 2 次,2 发生了 3 次等等。
我想得到的是每个项目的累积频率,所以我需要从上面的实例数据中得到的结果是:(1, 2), (2, 3+2=5), (3, 1+3+2=6)
.
到目前为止,我已经尝试通过使用mapPartitions
which 如果只有一个分区会给出正确的结果来做到这一点......否则显然不会。
我怎样才能做到这一点?
谢谢。马可