我试图从网页中获取一些数据,但我发现了一个问题。每当我想转到下一页(即第 2 页)以继续检索其中的数据时,我一直从第 1 页接收数据。显然在尝试切换到下一页时出现了问题。
问题是,我没有遇到这样的网址问题:
'http://www.webpage.com/index.php?page=' + str(pageno)
我可以开始一个 while 语句,然后通过将 1 添加到“pageno”来跳转到第 2 页
当我尝试使用这种格式打开一个 url 时,我的问题就出现了:
'http://www.webpage.com/search/?show_all=1#sort_order=ASC&page=' + str(pageno)
作为
urllib2.urlopen('http://www.webpage.com/search/?show_all=1#sort_order=ASC&page=4').read()
将从http://www.webpage.com/search/?show_all=1检索源代码
就我而言,没有其他方法可以在不使用哈希的情况下检索其他页面。
我想这只是 urllib2 忽略了哈希,因为它通常用于指定浏览器的起点。