Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
如何使用 hadoop mapreduce 程序消除单个文件中的重复值 在输出中我需要唯一值 例如:在文件中 第 1 行:嗨,这是 Ashok 第 2 行:hadoop 框架的基础 第 3 行:嗨,这是 Ashok 从这个例子只需要输出唯一值,即它应该打印第 1 行和第 3 行...怎么做...。
这是没有计数的字数。
典型的做法是按整行分组,然后只在 reducer 中输出 key。这是一些伪代码:
map(key, value): emit (value, null) reducer(key, iterator): emit (key, null)
请注意,我只是在这里输出值作为映射器的键。该值可以为 null(即 ,NullWriteable或者您可以只使用整数或其他任何值。)。
NullWriteable
在reducer中,我不管我看到多少,我只是输出key。