urllist = ['http://example.com',
'http://example1.com']
i = 0
while i < len(urllist):
source = urllib.urlopen(urllist[i]).read()
regex = '(\d{3})/">(\w+\s-\s\w+)</a>' # e.g. '435', 'Tom-Jerry'
p = re.compile(regex)
db = re.findall(p, source)
db = [tuple(filter(None, t)) for t in db]
hero_id = []
for j in db:
hero_id.append(j[0])
i += 1
print hero_id
请注意:db = [tuple(filter(None, t)) for t in db]
db
是这样的元组列表:[('564', 'Tom', 'Jerry'), ('321', 'X-man', 'Hulk')]
. 在这hero_id = []
条线上,一切都像一个魅力。for foop 需要附加每个数字(来自 的每个 url urllist
)。它部分完成了它的工作。最后的hero_id
列表只包含最后一个 url 中的数字(以前的数字已经消失)。想法?