在 Pig 中,我正在加载和分组两个文件。我最终得到了这样的结果:
A = LOAD 'File1' Using PigStorage('\t');
B = LOAD 'File2' Using PigStorage('\t');
C = COGROUP A BY $0, B BY $0;
STORE C INTO 'Output' USING PigStorage('\t');
输出:
123 {(123,XYZ,456)} {(123,QRS,889,QWER)}
其中第一个字段是组键,第一个包来自 File1,下一个包来自 File2。这三个部分是使用我在 PigStorage('\t') 子句中确定的任何内容相互分隔的。
问题:如何强制 Pig 用逗号以外的方式分隔包?在我的真实数据中,存在逗号,因此我需要用制表符分隔。
期望的输出:
123 {(123\tXYZ\t456)} {(123\tQRS\t889\tQWER)}