1

好的,在 python 中,我从这样的字符串中提取电子邮件:

split = re.split(" ", string)
emails = []

pattern = re.compile("^[a-zA-Z0-9_\.-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-\.]+$");

for bit in split:
    result = pattern.match(bit)

    if(result != None):
        emails.append(bit)

只要电子邮件之间有空格,这就是有效的。但情况可能并非总是如此。例如:

Hello, foo@foo.com

会返回:

foo@foo.com

但是,采用以下字符串:

I know my best friend mailto:foo@foo.com!

这将返回null。所以问题是:我怎样才能使正则表达式成为分割的分隔符?我想得到

foo@foo.com

在所有情况下,无论它旁边的标点符号如何。这在python中可能吗?

“通过正则表达式拆分”是指如果程序遇到字符串中的模式,它将提取该部分并将其放入列表中。

4

3 回答 3

2

我不是正则表达式专家,但我想说您正在寻找re.findall

>>> email_reg = re.compile(r'[a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+')
>>> email_reg.findall('I know my best friend mailto:foo@foo.com!')
['foo@foo.com']

请注意,findall可以处理多个电子邮件地址:

>>> email_reg.findall('Text text foo@foo.com, text text, baz@baz.com!')
['foo@foo.com', 'baz@baz.com']

编辑:在 Qtax 的帮助下,正则表达式现在应该会更好。

于 2012-04-06T19:15:10.823 回答
1

使用re.searchre.findall。您还需要正确转义您的表达式(.需要在字符类之外转义,而不是在内部)并删除/替换锚点^$(例如用\b),例如:

r"\b[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+\b"
于 2012-04-06T19:15:18.667 回答
1

我在您的正则表达式中看到的问题是您使用^哪个匹配字符串的开头和$匹配字符串的结尾。如果您删除它,然后使用您的示例测试用例运行它,它将起作用

>>> re.findall("[A-Za-z0-9\._-]+@[A-Za-z0-9-]+.[A-Za-z0-9-\.]+","I know my best friend mailto:foo@foo.com!")
['foo@foo.com']
>>> re.findall("[A-Za-z0-9\._-]+@[A-Za-z0-9-]+.[A-Za-z0-9-\.]+","Hello, foo@foo.com")
['foo@foo.com']
>>> 
于 2012-04-06T19:19:33.983 回答