我有这个脚本:
import urrlib2
from bs4 import BeautifulSoup
url = "http://www.shoptop.ru/"
page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
divs = soup.findAll('a')
print divs
对于这个网站,它打印空列表?有什么问题?我在 Ubuntu 12.04 上运行
我有这个脚本:
import urrlib2
from bs4 import BeautifulSoup
url = "http://www.shoptop.ru/"
page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
divs = soup.findAll('a')
print divs
对于这个网站,它打印空列表?有什么问题?我在 Ubuntu 12.04 上运行
实际上,BeautifulSoup 中有很多错误可能会引发一些未知错误。我在使用lxml
解析器处理 apache 时遇到了类似的问题
因此,只需尝试使用文档中提到的其他几个解析器
soup = BeautifulSoup(page, "html.parser")
这应该工作!
看起来你的代码中有一些错误 urrlib2 应该是 urllib2,我已经为你修复了代码,这可以使用 BeautifulSoup 3
import urllib2
from BeautifulSoup import BeautifulSoup
url = "http://www.shoptop.ru/"
page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
divs = soup.findAll('a')
print divs