我想使用 python从这个请愿书中刮掉所有 ~62000 个名字。我正在尝试使用 beautifulsoup4 库。
但是,它只是行不通。
到目前为止,这是我的代码:
import urllib2, re
from bs4 import BeautifulSoup
soup = BeautifulSoup(urllib2.urlopen('http://www.thepetitionsite.com/104/781/496/ban-pesticides-used-to-kill-tigers/index.html').read())
divs = soup.findAll('div', attrs={'class' : 'name_location'})
print divs
[]
我究竟做错了什么?另外,我想以某种方式访问下一页以将下一组名称添加到列表中,但我现在不知道该怎么做。任何帮助表示赞赏,谢谢。