apache-pig - 在 pigLatin 中加载 csv

Question

我有一个具有以下格式的 csv 文件

TRAABRX12903CC4816,1548880,2:19,4:7,...
.
.
.

我的问题是我想解释为

{(key:chararray,key2:int,{(id:int,cnt:int)})}

到目前为止我的代码是

data = LOAD 'mxm_dataset_test_3.txt' using PigStorage(',');
data0 = foreach data generate $0 as key:chararray, {$2 ..} as bow;

为此data0，data0: {key: chararray,bow: {(NULL)}} 当我尝试将其显式转换(bag{tuple(chararray)})为

data0 = foreach data generate $0 as key:chararray, {$2 ..} as bow;

这给出了错误Cannot cast bag with schema :bag{:tuple(:NULL)} to bag with schema :bag{:tuple(:chararray)}

score 0 · Accepted Answer

使用 TOBAG 内置函数来构建您的包：

$ cat input
TRAABRX12903CC4816,1548880,2:19,4:7
TRAABRX12903CC4816,1548881,2:19,4:7,5:23,7:3
TRAABRX12903CC4816,1548882
TRAABRX12903CC4816,1548883,17:33
$ cat test.pig
data = LOAD 'input' USING PigStorage(',');
data0 = FOREACH data GENERATE $0 AS key:chararray, $1 AS key2:chararray, TOBAG($2 ..) AS bow:{(pair)};
DESCRIBE data0;
DUMP data0;
$ pig -x local test.pig
...
data0: {key: chararray,key2: chararray,bow: {(pair: NULL)}}
...
(TRAABRX12903CC4816,1548880,{(2:19),(4:7)})
(TRAABRX12903CC4816,1548881,{(2:19),(4:7),(5:23),(7:3)})
(TRAABRX12903CC4816,1548882,{})
(TRAABRX12903CC4816,1548883,{(17:33)})

但是，如果您想拆分 id:cnt 对，这将变得更加棘手。因为没有办法将模式分配给任意数量的元素，并且TOBAG是 UDF，Pig 不能将 bytearray 转换为 chararray 或以后的任何其他内容。

我建议将整行加载为字符串 ( USING PigStorage('\n'))，使用STRSPLIT限制为 3 来获取您的key,key2和逗号分隔的字符串列表，然后STRSPLIT在逗号和冒号上迭代以获得您想要的对，使用FLATTEN和TOBAG如所须。我会为你演示这一点，但我被困在 Pig 0.9 上，根据PIG-2311判断，这在 Pig 0.10 之前是不可能的。

最简单的解决方案可能就是编写自己的 UDF 来解释如下字符串2:13,9:4,5:4：

data = LOAD 'input' USING PigStorage('\n') AS (line:chararray);
data0 = FOREACH data GENERATE FLATTEN(STRSPLIT(line, ',', 3)) AS (key:chararray, key2:chararray, pairs:chararray);
data1 = FOREACH data0 GENERATE key, key2, myudfs.PARSE_PAIRS(pairs);

wheremyudfs.PARSE_PAIRS返回一个包含你想要的元组的包。祝你好运。

apache-pig - 在 pigLatin 中加载 csv

1 回答 1

Related

Reference