使用 apache pig 和文本
hahahah. my brother just didnt do anything wrong. He cheated on a test? no way!
我正在尝试匹配“我的兄弟只是没有做错任何事”。
理想情况下,我想匹配以“我的兄弟”开头并以标点符号(句末)或 EOL 结尾的任何内容。
查看 pig 文档,然后点击 java.util.regex.Pattern 的链接,我想我应该可以使用
extrctd = FOREACH fltr GENERATE FLATTEN(EXTRACT(txt,'(my brother just .*\\p{Punct})')) as (txt:chararray);
但这似乎一直匹配到行尾。对进行这场比赛有什么建议吗?我已经准备好拔头发了,拔我的头发,我的意思是切换到 python 流