我正在尝试解析图书馆网站以从特定出版商处获取信息。这是网站的链接。
http://hollis.harvard.edu/?q=publisher:%22sonzogno%22+ex-Everything-7.0:%221700-1943%22+
到目前为止,通过使用漂亮的汤,我可以从这个页面获取我需要的数据。问题是我的脚本只从整个结果集中抓取了前 25 个条目(价值一页),而整个结果集中还有很多。
我在这里想念什么?
这是一小段代码。
def url_parse(name):
if(name == " "):
print 'Invalid Error'
else:
response = urllib2.urlopen(name)
html_doc = response.read()
soup = BeautifulSoup(html_doc)
print soup.title
print soup.find_all("a",{"class":"classiclink"})
#print soup.find("a",{"class":"classiclink"})
aleph_li = [] # creates and emptylist
aleph_li = soup.find_all("a",{"class":"classiclink"})
之后我打算使用这些标签中的可用信息。到目前为止,就像你说的,我只能抓住其中的 25 个。
我无法遍历每个页面,因为 url(包含某种查询)似乎没有任何页面信息。我不确定如何向服务器发出重复请求。
谢谢。