我有一个RDD具有以下结构的:
val rdd = RDD[ (category: String, product: String, score: Double) ]
我的目标是group基于类别的数据,然后对于每个类别sort的得分为Tuple 2 (product, score). 至于现在我的代码是:
val result = rdd.groupByKey.mapValues(v => v.toList.sortBy(-_._2))
事实证明,对于我拥有的数据来说,这是非常昂贵的操作。我希望使用替代方法来提高性能。