0

我正在尝试编写 Spark 应用程序,它会找到我在map函数中创建的键的数量。我找不到可以让我这样做的功能。

我想到的一种方法是使用累加器,在reduce函数中将累加器变量加 1。我的想法是基于累加器变量作为计数器在节点之间共享的假设。

请指导。

4

1 回答 1

0

如果您正在寻找类似于 spark 中的 Hadoop 计数器的东西,最准确的近似值是一个累加器,您可以在每个任务中增加它,但您没有任何关于 Spark 迄今为止处理的数据量的信息。

如果你只想知道你的 rdd 中有多少不同的键,你可以做一些不同的映射键的计数 (rdd.map(t=>t_1)).distinct.count)

希望这对你有用

于 2014-09-30T11:05:15.903 回答