1

我有一个大文本文件(5 GB),每行一个字符串。我需要使用专有算法将每一行与其他每一行进行比较。我是 MapReduce 的新手,但有 Java 经验。给我带来麻烦的问题是创建单独的地图输入。文档似乎是在假设每一行不依赖于任何其他行的情况下编写的。这样做的最佳方法是什么?

4

1 回答 1

0

以下是一些关于使用 Hadoop 进行连接的有趣论文:

http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdf http://www.inf.ed.ac.uk/publications/thesis/online/IM090720.pdf http:// pages.cs.wisc.edu/~jignesh/publ/hadoopjoin.pdf

我认为您还应该研究 Hadoop mapred join 框架:

http://hadoop.apache.org/common/docs/r0.20.0/api/org/apache/hadoop/mapred/join/package-summary.html

于 2012-08-09T10:25:03.377 回答