我正在尝试使用 pig 从原始文本中提取电子邮件详细信息。
这是示例数据:
Sample data for email abc.123@gmail.com
Sample data for email xyz@abc.com
我正在尝试使用 REGEX 方法,正则表达式来自:http ://www.mkyong.com/regular-expressions/how-to-validate-email-address-with-regular-expression/
这是脚本:
A = Load '----' using PigStorage as (value: chararray);
B = FOREACH A GENERATE FLATTEN(REGEX_EXTRACT_ALL(value, '^[_A-Za-z0-9-\\+]+(\\.[_A-Za-z0-9-]+)*@[A-Za-z0-9-]+(\\.[A-Za-z]{2,})$')) AS (f1: chararray)
dump B;
将输出转储到终端后,我得到空白输出:
()
()
脚本语法有问题吗?
请分享一些关于正则表达式写作的链接,这将非常有帮助。
感谢您的帮助,谢谢。