我正在尝试使用 Python 2.7.2 进行一些抓取。我刚刚开始使用 Python,不幸的是它并不像我想象的那么直观。我尝试从所有页面收集所有特定的 -s。我不知道如何从字符串数组中的所有页面累积结果。到目前为止,我只从 1 页得到结果。我知道这对于使用 python 编写的人来说是一个非常简单的问题。所以请帮助我。这是代码:
import urllib
import re
j=1
while j<10:
url="http://www.site.com/search?page=" + str(j) + "&query=keyword"
print url
htmlfile=urllib.urlopen(url)
htmltext=htmlfile.read()
regex='<span class="class33">(.+?)</span>'
pattern=re.compile(regex)
spans=re.findall(pattern,htmltext)
#spans[j] insttead of spans doesn't work
#spans.append(spans) doesn't work
j+=1
i=0
while i<len(spans):
print spans[i]
i+=1