1

在 Pig 中,我正在加载和分组两个文件。我最终得到了这样的结果:

A = LOAD 'File1' Using PigStorage('\t');
B = LOAD 'File2' Using PigStorage('\t');
C = COGROUP A BY $0, B BY $0;
STORE C INTO 'Output' USING PigStorage('\t');

输出:

123 {(123,XYZ,456)} {(123,QRS,889,QWER)}

其中第一个字段是组键,第一个包来自 File1,下一个包来自 File2。这三个部分是使用我在 PigStorage('\t') 子句中确定的任何内容相互分隔的。

问题:如何强制 Pig 用逗号以外的方式分隔包?在我的真实数据中,存在逗号,因此我需要用制表符分隔。

期望的输出:

123 {(123\tXYZ\t456)} {(123\tQRS\t889\tQWER)}
4

1 回答 1

0

这似乎是 Pig 中的一个未解决问题(截至 2013 年 6 月)。有关更多详细信息,请参阅相应的JIRA。在问题得到解决之前,您可以更改输入数据。

于 2013-06-17T16:33:17.473 回答