我有以下文件:
File
----
12-3 John 121
5-1 Sam 122
该文件以制表符 ( \t
) 分隔。我正在加载该行,line:chararray
因为我希望数据不被拆分到各个字段中。
现在,我想将详细信息(12-3 和 5-1)提取并存储为单独的数据。
我正在尝试使用STRSPLIT
and REGEX_EXTRACT_ALL
,但数据似乎不匹配。
splitdata = FOREACH filedata {
regex = REGEX_EXTRACT_ALL(line, '^([0-9]*)\\-([0-9]*)');
split = STRSPLIT(line, '\\t', 1);
GENERATE regex, split;
};
这就是我希望我的最终数据的样子:
(12, 3, 12-3 John 121)
( 5, 1, 5-1 Sam 122)