我BeautifulSoup
用来解析一堆可能非常脏的HTML
文档。我偶然发现了一件非常奇怪的事情。
HTML 来自此页面:http ://www.wvdnr.gov/
它包含多个错误,例如多个<html></html>
,<title>
在外部<head>
等等......
但是,即使在这些情况下,html5lib 通常也能正常工作。事实上,当我这样做时:
soup = BeautifulSoup(document, "html5lib")
我 pretti-print soup
,我看到以下输出:http ://pastebin.com/8BKapx88
其中包含很多<a>
标签。
但是,当我这样做时,soup.find_all("a")
我会得到一个空列表。和lxml
我一样。
那么:以前有没有人偶然发现过这个问题?到底是怎么回事?如何获取html5lib
找到但未返回的链接find_all
?