0

一个 mapreduce 任务:

file_one中的key1为a1,a2,a3,a10,a11,a12;file_two 中的 key2 为 persona1、persona1、persona2、persona3、persona12、persona12、persona3、persona11、persona10。

Merge_file=JOIN file_one BY Key1, file_two by Key2??(怎么写..)

而且由于第二个键有重复,这有关系吗?

谢谢

4

1 回答 1

0

我的建议是为每个数据集创建一个新列并加入其中,例如:

A = foreach file_one generate *, join_key1 as SUBSTRING(key1, 1, 100);
B = foreach file_two generate *, join_key2 as SUBSTRING(key2, 7, 100);
C = join A by join_key1, B by join_key2;
于 2013-04-24T14:15:17.783 回答