我们使用Beautiful Soup成功地解析了许多网站,但有一些给我们带来了问题。一个例子是这个页面:
我们正在为美丽的汤提供确切的来源,但它返回一个发育不良的 HTML 字符串,虽然没有错误......
代码:
soup = BeautifulSoup(site_html)
print str(soup.html)
结果:
<html class="no-js" lang="en"> <!--<![endif]--> </html>
我正在尝试确定是什么绊倒了它,但是在查看 html 源代码时没有任何反应。有没有人有一些见识?