1

我们使用Beautiful Soup成功地解析了许多网站,但有一些给我们带来了问题。一个例子是这个页面:

http://www.designsponge.com/2013/04/biz-ladies-how-to-use-networking-to-improve-your-search-engine-rankings.html

我们正在为美丽的汤提供确切的来源,但它返回一个发育不良的 HTML 字符串,虽然没有错误......

代码:

soup = BeautifulSoup(site_html)
print str(soup.html)

结果:

<html class="no-js" lang="en"> <!--&lt;![endif]--> </html>

我正在尝试确定是什么绊倒了它,但是在查看 html 源代码时没有任何反应。有没有人有一些见识?

4

1 回答 1

5

尝试不同的解析器,页面可以用html5lib解析器解析:

>>> soup = BeautifulSoup(r.content, 'html5')
>>> len(soup.find_all('li'))
97

并非所有解析器都可以同等对待损坏的 HTML。

于 2013-04-02T20:50:41.030 回答