我正在尝试使用 BeautifulSoup 从网站(http://brooklynexposed.com/events/)中提取内容。作为问题的一个例子,我可以运行以下代码:
import urllib
import bs4 as BeautifulSoup
url = 'http://brooklynexposed.com/events/'
html = urllib.urlopen(url).read()
soup = BeautifulSoup.BeautifulSoup(html)
print soup.prettify().encode('utf-8')
输出似乎切断了html,如下所示:
<li class="event">
9:00pm - 11:00pm
<br/>
<a href="http://brooklynexposed.com/events/entry/5432/2013-07-16">
Comedy Sh
</a>
</li>
</ul>
</div>
</div>
</div>
</div>
</body>
</html>
它正在切断名称为 Comedy Show 的列表以及之后的所有 html,直到最后的结束标记。大多数 html 将被自动删除。我在许多网站上都注意到类似的事情,如果页面太长,BeautifulSoup 无法解析整个页面而只是剪切文本。有人对此有解决方案吗?如果 BeautifulSoup 无法处理此类页面,有没有人知道任何其他具有类似于 prettify() 功能的库?