我正在与 BeautifulSoup 合作,我发现了一个错误或错误。在我的示例中,我抓取了纽约时报的一个子版块网站......
import urllib2
from bs4 import BeautifulSoup
website = "http://www.nytimes.com/pages/politics/index.html"
data = BeautifulSoup(urllib2.urlopen(website).read())
print data
当我运行代码时,我会返回 head 标签及其里面的内容。但是,它不会抓取正文标签内的内容。如果我将网站 url 更改为http://www.nytimes.com
然后 BS 返回完整页面源。这是怎么回事,为什么我爬的时候没有得到身体标签http://www.nytimes.com/pages/politics/index.html
?