hadoop - 在hadoop中合并两个文件

Question

我是hadoop框架的新手。因此，如果有人可以指导我完成这件事，那将对我有所帮助。我有两种类型的文件。dirA/ --> file_a , file_b, file_c

dirB/ --> another_file_a, another_file_b...

目录 A 中的文件包含传输信息。

所以像：

   id, time_stamp
   1 , some_time_stamp
   2 , some_another_time_stamp
   1  , another_time_stamp

因此，这种信息分散在 dirA 中的所有文件中。现在要做的第一件事是：我给出一个时间范围（比如说上周），我想找到该时间范围之间存在的所有唯一 ID。

所以，保存一个文件。

现在，dirB 文件包含地址信息。就像是：

    id, address, zip code
     1, fooadd, 12345
     and so on

所以第一个文件输出的所有唯一ID..我把它们作为输入，然后找到地址和邮政编码。

基本上最后的输出就像 sql 合并。

查找时间范围内的所有唯一 ID，然后合并地址信息。

我将不胜感激任何帮助。谢谢

score 1 · Accepted Answer

你把它标记为猪，所以我猜你想用它来完成这个？如果是这样，我认为这是一个很好的选择——这在猪身上真的很容易！

times = LOAD 'dirA' USING PigStorage(', ') AS (id:int, time:long);
addresses = LOAD 'dirB' USING PigStorage(', ') AS (id:int, address:chararray, zipcode:chararray);
filtered_times = FILTER times BY (time >= $START_TIME) AND (time <= $END_TIME);
just_ids = FOREACH filtered_times GENERATE id;
distinct_ids = DISTINCT just_ids;
result = JOIN distinct_ids BY id, addresses BY id;

您可以将参数传递给脚本的位置和$START_TIME参数。$END_TIME

hadoop - 在hadoop中合并两个文件

1 回答 1

Related

Reference