我收到表格中的数据
id1|attribute1a,attribute1b|attribute2a|attribute3a,attribute3b,attribute3c....
id2||attribute2b,attribute2c|..
我正在尝试将它全部合并到一个表单中,其中我只有一个 id 字段的元组包,后跟一个包含合并在一起的所有其他字段列表的元组。
(id1,(attribute1a,attribute1b,attribute2a,attribute3a,attribute3b,attribute3c...)) (id2,(attribute2b,attribute2c...))
目前我拿它喜欢
my_data = load '$input' USING PigStorage(|) as
(id:chararray, attribute1:chararray, attribute2:chararray)...
然后我尝试了 FLATTEN、TOKENIZE、GENERATE、TOTUPLE、BagConcat 等的所有组合,以将其按摩成我想要的形式,但我是猪新手,无法弄清楚。任何人都可以帮忙吗?任何开源 UDF 库都是公平的游戏。