python - 美丽的汤无法解析这个 HTML

Question

我们使用Beautiful Soup成功地解析了许多网站，但有一些给我们带来了问题。一个例子是这个页面：

我们正在为美丽的汤提供确切的来源，但它返回一个发育不良的 HTML 字符串，虽然没有错误......

代码：

soup = BeautifulSoup(site_html)
print str(soup.html)

结果：

<html class="no-js" lang="en"> <!--&lt;![endif]--> </html>

我正在尝试确定是什么绊倒了它，但是在查看 html 源代码时没有任何反应。有没有人有一些见识？

score 5 · Accepted Answer

尝试不同的解析器，页面可以用html5lib解析器解析：

>>> soup = BeautifulSoup(r.content, 'html5')
>>> len(soup.find_all('li'))
97

并非所有解析器都可以同等对待损坏的 HTML。

1 回答 1