我正在从一些带有 Unicode 字符的网页中提取 HTML,如下所示:
def extract(url):
""" Adapted from Python3_Google_Search.py """
user_agent = ("Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US) "
"AppleWebKit/525.13 (KHTML, like Gecko)"
"Chrome/0.2.149.29 Safari/525.13")
request = urllib.request.Request(url)
request.add_header("User-Agent",user_agent)
response = urllib.request.urlopen(request)
html = response.read().decode("utf8")
return html
如您所见,我正在正确解码。现在html
是一个 unicode 字符串。打印 html 时,我可以看到 Unicode 字符。
我html.parser
用来解析 HTML 并将其子类化:
from html.parser import HTMLParser
class Parser(HTMLParser):
def __init__(self):
## some init stuff
#### rest of class
使用类解析 HTML 时handle_data
,似乎 Unicode 字符被删除/突然消失。文档没有提到任何关于编码的内容。为什么 HTML Parser 会删除非 ascii 字符,我该如何解决这个问题?