map - 如何使用hadoop mapreduce程序消除单个文件中的重复值

Question

如何使用 hadoop mapreduce 程序消除单个文件中的重复值在

输出中我需要唯一值

例如：在文件中

第 1 行：嗨，这是 Ashok

第 2 行：hadoop 框架的基础

第 3 行：嗨，这是 Ashok

从这个例子只需要输出唯一值，即它应该打印第 1 行和第 3 行...怎么做...。

score 8 · Accepted Answer

这是没有计数的字数。

典型的做法是按整行分组，然后只在 reducer 中输出 key。这是一些伪代码：

map(key, value):
   emit (value, null)

reducer(key, iterator):
   emit (key, null)

请注意，我只是在这里输出值作为映射器的键。该值可以为 null（即，NullWriteable或者您可以只使用整数或其他任何值。）。

在reducer中，我不管我看到多少，我只是输出key。

map - 如何使用hadoop mapreduce程序消除单个文件中的重复值

1 回答 1

Related

Reference