我正在使用亚马逊的弹性地图减少。
我有看起来像这样的日志文件
random text foo="1" more random text foo="2"
more text notamatch="5" noise foo="1"
blah blah blah foo="1" blah blah foo="3" blah blah foo="4" ...
如何编写一个 pig 表达式来挑选出 'foo' 表达式中的所有数字?
我更喜欢看起来像这样的元组:
(1,2)
(1)
(1,3,4)
我尝试了以下方法:
TUPLES = foreach LINES generate FLATTEN(EXTRACT(line,'foo="([0-9]+)"'));
但这只会产生每行中的第一个匹配项:
(1)
(1)
(1)