我刚开始使用 Java 中的 Apache Spark。我目前正在做一个带有一些书籍数据的迷你项目。我必须找到每个国家最受欢迎的作家。
我有一个pairRDD,其中键是国家,值是作者,就像这样
[(usa,C. S Lewis), (australia,Jason Shinder), (usa,Bernie S.), (usa,Bernie S.)]
我是否必须使用 Tuple3 再添加一个字段并计算每个值出现的次数?如果是这样,我如何将 combineByKey 用于 Tuple3?
我有另一个想法,我可以从 pairRDD 中获取所有密钥,并基于此,我可以过滤以使用另一个 pairRDD,其中author_names
每个密钥被提及的次数和次数,我可以找到最受欢迎的作者。但这感觉不是一个优雅的解决方案,因为我必须遍历键数组。帮助。