apache-pig - strsplit 问题 - 猪

Question

我有以下元组 H1，我想将其 $0 拆分为元组。但是我总是收到一条错误消息：

DUMP H1:
(item32;item31;,1)

m = FOREACH H1 GENERATE STRSPLIT($0, ";", 50);

ERROR 1000：解析时出错。第 1 行第 40 列出现词法错误。遇到：后："\";"

有人知道脚本有什么问题吗？

score 12 · Accepted Answer

猪解析例程遇到这个分号时存在转义问题。

您可以对分号使用 unicode 转义序列：\u003B. 但是，这也必须用斜杠转义并放在单引号字符串中。或者，您可以根据 Neil 的回答将命令重写为多行。在所有情况下，这必须是单引号字符串。

H1 = LOAD 'h1.txt' as (splitme:chararray, name);

A1 = FOREACH H1 GENERATE STRSPLIT(splitme,'\\u003B'); -- OK
B1 = FOREACH H1 GENERATE STRSPLIT(splitme,';');       -- ERROR
C1 = FOREACH H1 GENERATE STRSPLIT(splitme,':');       -- OK
D1 = FOREACH H1 {                                     -- OK
    splitup = STRSPLIT( splitme, ';' );
    GENERATE splitup;
}

A2 = FOREACH H1 GENERATE STRSPLIT(splitme,"\\u003B"); -- ERROR
B2 = FOREACH H1 GENERATE STRSPLIT(splitme,";");       -- ERROR
C2 = FOREACH H1 GENERATE STRSPLIT(splitme,":");       -- ERROR
D2 = FOREACH H1 {                                     -- ERROR
    splitup = STRSPLIT( splitme, ";" );
    GENERATE splitup;
}

Dump H1;
(item32;item31;,1)

Dump A1;
((item32,item31))

Dump C1;
((item32;item31;))

Dump D1;
((item32,item31))

score 4 · Accepted Answer

分号上的 STRSPLIT 很棘手。我把它放在一个块里面来让它工作。

raw = LOAD 'cname.txt' as (name,cname_string:chararray);

xx = FOREACH raw {
  cname_split = STRSPLIT(cname_string,';');
  GENERATE cname_split;
}

有趣的是，这就是我最初实现我的 STRSPLIT() 命令的方式。只有在尝试将其拆分为分号之后，我才遇到了同样的问题。

apache-pig - strsplit 问题 - 猪

2 回答 2

Related

Reference