0

有没有办法从 Pig Latin 中的文件中提取某些单词,例如:我想要一个带有推文的大文件中的所有单词,开头有一个 #。

Input :  What a lovely day! #Sunshine
Output : Sunshine
4

2 回答 2

0

看看 REGEX_EXTRACT:http ://pig.apache.org/docs/r0.12.1/func.html#regex-extract

这应该有效(从 your_field 中提取带有 # 的最后一个单词):

REGEX_EXTRACT(your_field, '.*#(\\w+)($|\\s.*)', 1)
于 2014-05-24T03:49:32.643 回答
0

好的,使用 FILTER 对我有用:startswithHash = filter <> by <> matches '#.*' ;

于 2014-05-23T21:56:22.940 回答