hadoop - 学习在 PIG Latin 中使用 perl 之类的正则表达式。

Question

有没有办法从 Pig Latin 中的文件中提取某些单词，例如：我想要一个带有推文的大文件中的所有单词，开头有一个 #。

Input :  What a lovely day! #Sunshine
Output : Sunshine

score 0 · Accepted Answer

这应该有效（从 your_field 中提取带有 # 的最后一个单词）：

REGEX_EXTRACT(your_field, '.*#(\\w+)($|\\s.*)', 1)

score 0 · Accepted Answer

0

好的，使用 FILTER 对我有用：startswithHash = filter <> by <> matches '#.*' ;

于 2014-05-23T21:56:22.940 回答

2 回答 2