2

如何处理某些字段用引号括起来的 CSV 文件?

例如要处理的行(字段分隔符是',')

我是 column1,我是 column2,“是的,我是 column3”

该示例包含三列。但是下面的例子会说我有四列:

A = 使用 PigStorage(',') 加载'/path/to/file';

请,任何建议,链接到资源..?

4

1 回答 1

0

尝试加载数据,然后执行 FOREACH GENERATE 以将数据重新生成为您需要的任何格式。对于需要删除引号的字段,请使用 REPLACE($3, '\"')。

data = LOAD 'testdata' USING PigStorage(",");
data = FOREACH data GENERATE
    (chararray) $0                AS col1:chararray,
    (chararray) $1                AS col2:chararray,
    (chararray) REPLACE($3, '\"') AS col3:chararray);
于 2013-07-18T16:27:21.850 回答