apache-pig - hadoop pig 脚本 - 与条件联合

Question

我对猪完全陌生。我想使用 iid 字段合并两个文件 A 和 B，但我不希望输出包含 A 没有的任何 iid（来自 B）。这似乎很简单，但我无法弄清楚如何正确地做到这一点。

这是我的示例代码，只有联合：

a = load '$input' as (iid:int, field:chararray, v1:chararray, v2:chararray, v3:chararray);
b = load '$data' as (iid:int, field:chararray, v1:chararray, v2:chararray, v3:chararray);
out = union onschema a,b;
singled = distinct out;
ordered = order singled by iid;
store ordered into '$output';

下面是只有 3 列的示例数据来描述我的期望。请注意，字段实际上是制表符分隔的。

样本数据A：

1  Name   Tom Linkon
1  Title  Professor
2  Name   Whatever
2  Title  Worker

样本数据 B：

1  City  New York
2  City  Columbus
3  City  Fake fake
4  City  Blah Bla

样本输出

1  Name   Tom Linkon
1  Title  Professor
1  City   New York
2  Name   Whatever
2  Title  Worker
2  City   Columbus

非常感谢你的帮助！

score 3 · Accepted Answer

使用 aCOGROUP来组织具有相同键的记录，但避免JOIN' 的不良叉积。然后FILTER根据包含的记录的包是否b为空，拆分回两个关系，然后执行UNION：

a = load '$input' as (iid:int, field:chararray, v1:chararray, v2:chararray, v3:chararray);
b = load '$data' as (iid:int, field:chararray, v1:chararray, v2:chararray, v3:chararray);
c = COGROUP a BY iid, b BY iid;
c_filt = FILTER c BY NOT IsEmpty(b);
a_new = FOREACH c_filt GENERATE group AS iid, FLATTEN(a);
b_new = FOREACH c_filt GENERATE group AS iid, FLATTEN(b);
out = UNION ONSCHEMA a_new, b_new;
singled = DISTINCT out;
STORE (ORDER singled BY iid) INTO '$output';

但是，我不喜欢这个解决方案——对于这样一个简单的操作来说，它有太多的行和新的关系。真正需要的是一种将两个袋子合二为一的方法。Pig 显然没有提供这个（如果有，请回答这个 SO question）。不过，您可以编写一个简单的 UDF 来执行此操作：

public class MERGE extends EvalFunc<DataBag> {
    public DataBag exec(Tuple input) throws IOException {
        DataBag b = new DefaultDataBag();
        try {
            if (input != null)
                for (int i = 0; i < input.size(); i++)
                    b.addAll((DataBag) input.get(i));
        } catch (Exception e) { return null; }
        return b;
    }
}

有了这个 UDF，解决方案就变成了：

a = load '$input' as (iid:int, field:chararray, v1:chararray, v2:chararray, v3:chararray);
b = load '$data' as (iid:int, field:chararray, v1:chararray, v2:chararray, v3:chararray);
c = FOREACH (COGROUP a BY iid, b BY iid) GENERATE group AS iid, MERGE(a,b) AS bag;
out = FOREACH c {
    uniq = DISTINCT bag;
    GENERATE iid, FLATTEN(bag);
};
STORE (ORDER out BY iid) INTO '$output';

这种方法的另一个优点是，如果您有多个输入，则不需要FOREACH在COGROUP. 只需添加更多参数MERGE：

c = FOREACH (COGROUP a BY iid, b BY iid, ..., z BY iid)
    GENERATE group AS iid, MERGE(a,b,...,z) AS bag;

score 2 · Accepted Answer

这里的这个应该可以解决您的问题：

f1 = LOAD '/user/hadoop/f1' USING PigStorage('\t') AS (id_f1:int, key_f1:chararray, value_f1:chararray);
f2 = LOAD '/user/hadoop/f2' USING PigStorage('\t') AS (id_f2:int, key_f2:chararray, value_f2:chararray);
f3 = JOIN f1 by id_f1 LEFT OUTER, f2 BY id_f2;
f4 = FOREACH f3 GENERATE id_f1, key_f1, value_f1;
f5 = FOREACH f3 GENERATE id_f2, key_f2, value_f2;
f6 = UNION f4, f5;
f7 = DISTINCT f6;
f8 = ORDER f7 BY $0;
DUMP f8;

apache-pig - hadoop pig 脚本 - 与条件联合

2 回答 2

Related

Reference