1


如何使用 hadoop mapreduce 程序消除单个文件中的重复值 在

输出中我需要唯一值

例如:在文件中

第 1 行:嗨,这是 Ashok

第 2 行:hadoop 框架的基础

第 3 行:嗨,这是 Ashok

从这个例子只需要输出唯一值,即它应该打印第 1 行和第 3 行...怎么做...。

4

1 回答 1

8

这是没有计数的字数。

典型的做法是按整行分组,然后只在 reducer 中输出 key。这是一些伪代码:

map(key, value):
   emit (value, null)

reducer(key, iterator):
   emit (key, null)

请注意,我只是在这里输出值作为映射器的键。该值可以为 null(即 ,NullWriteable或者您可以只使用整数或其他任何值。)。

在reducer中,我不管我看到多少,我只是输出key。

于 2012-10-20T05:09:13.913 回答