我是hadoop框架的新手。因此,如果有人可以指导我完成这件事,那将对我有所帮助。我有两种类型的文件。dirA/ --> file_a , file_b, file_c
dirB/ --> another_file_a, another_file_b...
目录 A 中的文件包含传输信息。
所以像:
id, time_stamp
1 , some_time_stamp
2 , some_another_time_stamp
1 , another_time_stamp
因此,这种信息分散在 dirA 中的所有文件中。现在要做的第一件事是:我给出一个时间范围(比如说上周),我想找到该时间范围之间存在的所有唯一 ID。
所以,保存一个文件。
现在,dirB 文件包含地址信息。就像是:
id, address, zip code
1, fooadd, 12345
and so on
所以第一个文件输出的所有唯一ID..我把它们作为输入,然后找到地址和邮政编码。
基本上最后的输出就像 sql 合并。
查找时间范围内的所有唯一 ID,然后合并地址信息。
我将不胜感激任何帮助。谢谢