我正在尝试编写一个读取大型单行文件并将其拆分为大型多行文件的 PIG 脚本。当我找到字符串“alert”或“none”时,我试图拆分文本;
我的脚本是:
data = LOAD '/myfile' USING TextLoader() as (line:chararray);
data_split = FOREACH data GENERATE FLATTEN (STRSPLIT(line, '/none|alert/')) as line:chararray);
为了验证我已正确拆分,我使用以下方法生成计数:
x = GROUP data_split by line;
count = foreach x GENERATE COUNT(data_split);
dump count;
这总是返回 1,这可能是因为我没有正确拆分它。任何帮助是极大的赞赏。