0

我刚开始使用 Java 中的 Apache Spark。我目前正在做一个带有一些书籍数据的迷你项目。我必须找到每个国家最受欢迎的作家。

我有一个pairRDD,其中键是国家,值是作者,就像这样

[(usa,C. S Lewis), (australia,Jason Shinder), (usa,Bernie S.), (usa,Bernie S.)]

我是否必须使用 Tuple3 再添加一个字段并计算每个值出现的次数?如果是这样,我如何将 combineByKey 用于 Tuple3?

我有另一个想法,我可以从 pairRDD 中获取所有密钥,并基于此,我可以过滤以使用另一个 pairRDD,其中author_names每个密钥被提及的次数和次数,我可以找到最受欢迎的作者。但这感觉不是一个优雅的解决方案,因为我必须遍历键数组。帮助。

4

1 回答 1

1

这实际上是 YAW(又一个字数):

rdd.mapToPair(s -> new Tuple2<>(s, 1)).reduceByKey((c1, c2) -> c1 + c2);
于 2017-10-31T11:48:49.540 回答