有没有办法从 Pig Latin 中的文件中提取某些单词,例如:我想要一个带有推文的大文件中的所有单词,开头有一个 #。
Input : What a lovely day! #Sunshine
Output : Sunshine
有没有办法从 Pig Latin 中的文件中提取某些单词,例如:我想要一个带有推文的大文件中的所有单词,开头有一个 #。
Input : What a lovely day! #Sunshine
Output : Sunshine
看看 REGEX_EXTRACT:http ://pig.apache.org/docs/r0.12.1/func.html#regex-extract
这应该有效(从 your_field 中提取带有 # 的最后一个单词):
REGEX_EXTRACT(your_field, '.*#(\\w+)($|\\s.*)', 1)
好的,使用 FILTER 对我有用:startswithHash = filter <> by <> matches '#.*' ;