0

我注意到一个非常烦人的错误:BeautifulSoup4 (package: bs4) 找到的标签通常比以前的版本 (package: BeautifulSoup) 少。

这是该问题的可复制实例:

import requests
import bs4
import BeautifulSoup

r = requests.get('http://wordpress.org/download/release-archive/')
s4 = bs4.BeautifulSoup(r.text)
s3 = BeautifulSoup.BeautifulSoup(r.text)

print 'With BeautifulSoup 4 : {}'.format(len(s4.findAll('a')))
print 'With BeautifulSoup 3 : {}'.format(len(s3.findAll('a')))

输出:

With BeautifulSoup 4 : 557
With BeautifulSoup 3 : 1701

如您所见,差异并不小。

如果有人想知道,以下是模块的确切版本:

In [20]: bs4.__version__
Out[20]: '4.2.1'

In [21]: BeautifulSoup.__version__
Out[21]: '3.2.1'
4

1 回答 1

9

您已经lxml安装,这意味着 BeautifulSoup 4 将使用解析器而不是标准库html.parser选项。

您可以将 lxml 升级到 3.2.1(对我来说,它会为您的测试页返回 1701 个结果);lxml 本身使用libxml2libxslt这也可能是罪魁祸首。您可能还必须升级那些。请参阅lxml 要求页面;目前推荐使用 libxml2 2.7.8 或更高版本。

或者在解析soup时显式指定其他解析器:

s4 = bs4.BeautifulSoup(r.text, 'html.parser')
于 2013-07-17T12:05:31.837 回答