首先需要获取下一页的URL,然后可以使用urllib2打开下一页..etc。
要获取 URL,如果 URL 中存在明确的模式,您可以手动构建它。
或者您可以通过阅读next
标签来阅读内容。
# the advantage of using `Next` is it is web text based which is more reliable.
import urllib
from bs4 import BeautifulSoup
import re
url = 'http://www.freesoft4down.com/Windows/System-Utilities/Clipboard-Tools/Page-1-0-0-0-0.html'
pageurl = urllib.urlopen(url)
soup = BeautifulSoup(pageurl)
print soup.find('ul',{'class':'div_pages'}).find(text=re.compile("Next")).find_parent('a')['href']
输出如下所示:
http://www.freesoft4down.com/Windows/System-Utilities/Clipboard-Tools/Page-2-0-0-0-0.html
现在您有了下一页的链接,如果您想获得下一页,下一页...,您只需要重复此过程即可。
让我知道这是否回答了您的问题。