我有一个RDD
具有以下结构的:
val rdd = RDD[ (category: String, product: String, score: Double) ]
我的目标是group
基于类别的数据,然后对于每个类别sort
的得分为Tuple 2 (product, score)
. 至于现在我的代码是:
val result = rdd.groupByKey.mapValues(v => v.toList.sortBy(-_._2))
事实证明,对于我拥有的数据来说,这是非常昂贵的操作。我希望使用替代方法来提高性能。