-1

好的。我已经完成了wordcount hadoop-program。但是我如何计算统计数据(哪个单词使用次数最多,平均使用次数和使用次数最少)?

我需要做几个减速器吗?

对不起。只是我是 Hadoop 的新手,但对我来说这很有趣。

谢谢你的时间。

4

1 回答 1

2

这是一个非常广泛的问题,但我会为您指明本书的方向。

我将提示第一个问题的技巧:您可以为每个单词输出一个标记值((*,word)例如,以一对的形式),然后使用 reduce 阶段来获取每个单词(*,word)(分区以便您只看在元组的第二个元素)到它出现的次数。

然后,您可以或多或少地使用其余的 hadoop 机制(特别是更改排序顺序),作为先前技术的变体,以使您大部分时间到达那里。

于 2013-08-01T20:34:12.250 回答