hadoop - 如何在 Pig 中将一个组展平为一个元组？

Question

由此：

(1, {(1,2), (1,3), (1,4)} )
(2, {(2,5), (2,6), (2,7)} )

...我们如何生成这个？

((1,2),(1,3),(1,4))
((2,5),(2,6),(2,7))

...我们如何生成这个？

(1, 2, 3, 4)
(2, 5, 6, 7)

对于单行，我知道该怎么做。问题是当我必须遍历许多行并同时操作内部组时。

score 11 · Accepted Answer

对于您的问题，我准备了以下文件：

1,2
1,3
1,4
2,5
2,6
2,7

起初，我使用以下脚本来获取r3您在问题中描述的输入：

r1 = load 'test_file' using PigStorage(',') as (a:int, b:int);
r2 = group r1 by a;
r3 = foreach r2 generate group as a, r1 as b;
describe r3;
-- r3: {a: int,b: {(a: int,b: int)}}
-- r3 is like (1, {(1,2), (1,3), (1,4)} )

如果我们要生成如下内容，

(1, 2, 3, 4)
(2, 5, 6, 7)

我们可以使用以下脚本：

r4 = foreach r3 generate a, FLATTEN(BagToTuple(b.b));
dump r4;

对于以下内容，

((1,2),(1,3),(1,4))
((2,5),(2,6),(2,7))

我找不到任何有用的内置函数。也许您需要编写自定义 BagToTuple。这是内置的 BagToTuple 源代码：http://www.grepcode.com/file/repo1.maven.org/maven2/org.apache.pig/pig/0.11.1/org/apache/pig/builtin/BagToTuple。 java#BagToTuple.getOuputTupleSize%28org.apache.pig.data.DataBag%29

score 4 · Accepted Answer

为了得到：

((1,2),(1,3),(1,4))
((2,5),(2,6),(2,7))

你可以这样做：

r4 = foreach r3 {
    Tmp=foreach $1 generate (a,b);
    generate FLATTEN(BagToTuple(Tmp));
};

score 3 · Accepted Answer

没有将包转换为元组的内置方法。这是因为包是无序的元组集合，所以 Pig 不知道在转换成元组时应该将元组设置为什么顺序。这意味着您必须编写一个 UDF 来执行此操作。

我不确定您是如何创建(1, 2, 3, 4)元组的，但这是 UDF 的另一个很好的候选者，即使您可以仅使用 BagToTuple UDF 创建该模式。

注意：除非您确切知道有多少字段，否则您可能不应该将任何东西变成元组。

myudfs.py

#!/usr/bin/python

@outputSchema('T:(T1:(a1:chararray, a2:chararray), T2:(b1:chararray, b2:chararray), T3:(c1:chararray, c2:chararray))')
def BagToTuple(B):
    return tuple(B)

def generateContent(B):
    foo = [B[0][0]] + [ t[1] for t in B ]
    return tuple(foo)

我的脚本.pig

REGISTER 'myudfs.py' USING jython AS myudfs ; 

-- A is (1, {(1,2), (1,3), (1,4)} ) 
-- The schema is (I:int, B:{T:(I1:int, I2:int)})

B = FOREACH A GENERATE myudfs.BagToTuple(B) ;
C = FOREACH A GENERATE myudfs.generateContent(B) ;

hadoop - 如何在 Pig 中将一个组展平为一个元组？

3 回答 3

Related

Reference