0

此应用程序将下载一个网页并在页面文本中查找所有电子邮件地址并返回它们的列表。

这是我当前的代码:

def emails(content):
'return list of email addresses contained in string content'
    email = []
    content = urlopen(url).read().decode()
    pattern='[A-Za-z0-9_.]+\@[A-Za-z0-9_.]+\....'
    email.append(re.findall(pattern,content))
    print(email)

但由于某种原因,我得到:

[['somePERSON@university.ca"']]

代替 :

['somePERSON@university.ca']
4

1 回答 1

5

re.findall实际上返回一个列表,因此您将一个列表附加到列表中。email.extend(re.findall(pattern,content))如果您不想要这种行为,您可以执行类似的操作(尽管我通常会在他们自己的行上检查匹配项以确保找到匹配项并正确处理非匹配项)。

于 2012-11-12T03:43:00.537 回答