我正在尝试使用 urllib2、BeautifulSoup 和 Python 2.7 解析网页。
问题出在上游:每次我尝试检索一个新网页时,我都会得到我已经检索到的那个。但是,我的网络浏览器中的页面有所不同:请参见page 1和page 2。循环页码有问题吗?
这是一个代码示例:
def main(page_number_max):
import urllib2 as ul
from BeautifulSoup import BeautifulSoup as bs
base_url = 'http://www.senscritique.com/clement/collection/#page='
for page_number in range(1, 1+page_number_max):
url = base_url + str(page_number) + '/'
html = ul.urlopen(url)
bt = bs(html)
for item in bt.findAll('div', 'c_listing-products-content xl'):
item_name = item.findAll('h2', 'c_heading c_heading-5 c_bold')
print str(item_name[0].contents[1]).split('\t')[11]
print('End of page ' + str(page_number) + '\n')
if __name__ == '__main__':
page_number_max = 2
main(page_number_max)