apache-pig - PIG：从分组袋中取出所有元组

Question

我正在使用 PIG 从元组生成组，如下所示：

a1, b1
a1, b2
a1, b3
...

->

a1, [b1, b2, b3]
...

这既简单又有效。但我的问题是得到以下内容：从获得的组中，我想在组的包中生成一组所有元组：

a1, [b1, b2, b3]

->

b1,b2
b1,b3
b2,b3

如果我可以嵌套“foreach”并首先遍历每个组，然后遍历其包，这将很容易。

我想我误解了这个概念，我会感谢你的解释。

谢谢。

score 15 · Accepted Answer

看起来你需要在包和它本身之间有一个笛卡尔积。为此，您需要使用 FLATTEN(bag) 两次。

代码：

inpt = load '.../group.txt' using PigStorage(',') as (id, val);
grp = group inpt by (id);
id_grp = foreach grp generate group as id, inpt.val as value_bag;
result = foreach id_grp generate id, FLATTEN(value_bag) as v1, FLATTEN(value_bag) as v2; 
dump result;

请注意，大袋子会产生很多行。为避免这种情况，您可以在 FLATTEN 之前使用 TOP(...)：

inpt = load '....group.txt' using PigStorage(',')  as (id, val);
grp = group inpt by (id);
id_grp = foreach grp generate group as id, inpt.val as values;
result = foreach id_grp {
    limited_bag = TOP(50, 0, values); -- all sorts of filtering could be done here
    generate id, FLATTEN(limited_bag) as v1, FLATTEN(limited_bag) as v2; 
};
dump result;

对于您的特定输出，您可以在 FLATTEN 之前使用一些过滤：

inpt = load '..../group.txt' as (id, val);
grp = group inpt by (id);
id_grp = foreach grp generate group as id, inpt.val as values;
result = foreach id_grp {
    l = filter values by val == 'b1' or val == 'b2';
    generate id, FLATTEN(l) as v1, FLATTEN(values) as v2; 
};
result = filter result by v1 != v2;

我希望它有所帮助。

干杯

score 4 · Accepted Answer

同样相关的是DataFu UDF 库中的这个UnorderedPairs函数。它会在一个包中生成成对的所有物品（在你的情况下是你的分组包）

score 1 · Accepted Answer

可以使用GROUP ALLpig 语句生成

A  = -- Some bag
B  = -- Another bag

groupedB = group B ALL;
result   = foreach A GENERATE 
    TOTUPLE(*), groupedB.$1;

-- Will generate
((a1), {(b1, b2, b3)})
((a2), {(b1, b2, b3)})
((a3), {(b1, b2, b3)})
...

apache-pig - PIG：从分组袋中取出所有元组

3 回答 3

Related

Reference