java - 在 Java 的 Apache Spark 中使用 Tuple3 时，combineByKey 的替代方法是什么？

Question

我刚开始使用 Java 中的 Apache Spark。我目前正在做一个带有一些书籍数据的迷你项目。我必须找到每个国家最受欢迎的作家。

我有一个pairRDD，其中键是国家，值是作者，就像这样

[(usa,C. S Lewis), (australia,Jason Shinder), (usa,Bernie S.), (usa,Bernie S.)]

我是否必须使用 Tuple3 再添加一个字段并计算每个值出现的次数？如果是这样，我如何将 combineByKey 用于 Tuple3？

我有另一个想法，我可以从 pairRDD 中获取所有密钥，并基于此，我可以过滤以使用另一个 pairRDD，其中author_names每个密钥被提及的次数和次数，我可以找到最受欢迎的作者。但这感觉不是一个优雅的解决方案，因为我必须遍历键数组。帮助。

score 1 · Accepted Answer

这实际上是 YAW（又一个字数）：

rdd.mapToPair(s -> new Tuple2<>(s, 1)).reduceByKey((c1, c2) -> c1 + c2);

1 回答 1