我正在编写一个 Java MapReduce 程序。例如,我有两个文件在 HDFS 中。我的程序将从 HDFS 读取这两个文件,在两个文件中找到同一行并输出结果。例如:
a.log:
apple
computer
bird
b.log:
steve
pear
apple
最终输出应该是
apple
我怎样才能做到这一点?我试图先读取 a.log 并将其存储到哈希集中,但它不起作用,因为任务跟踪器无法相互共享内存。有人能有什么想法吗?或者 Hadoop MapReduce 没有这种 OOTB?