我正在尝试掌握 Python 中的正则表达式。我正在编写一个非常简单的脚本来从给定的 URL 中删除电子邮件。
import re
from urllib.request import *
url = input("Please insert the URL you wish to scrape> ")
page = urlopen(url)
content = page.read()
email_string = b'[a-z0-9_. A-Z]*@[a-z0-9_. A-Z]*.[a-zA-Z]'
emails_in_page = re.findall(email_string, content)
print("Here are the emails found: ")
for email in emails_in_page:
print(email)
re.findall() 返回一个列表,当程序打印出电子邮件时,正则表达式字符串中的“b”包含在输出中,如下所示:
b'email1@email.com'
b'email2@email.com'
...
如何打印出一份干净的电子邮件列表?(即email1@email.com
:)