我错过了什么 - lxml 可用于抓取网页,对吗?我的意思是,即使是那些没有完美 html 的?我正在使用 BeautifulSoup,但我希望更快。
我发誓我阅读了文档,但我只是没有看到如何将网页源变成一棵树。我读到的所有内容都是关于从头开始创建树的,一次一个元素。
我愿意
from lxml import etree
url = urllib2.urlopen(url)
source = url.read()
然后什么?顺便说一句,如果有帮助,我可以将源代码转换为 unicode。