我目前正在研究蜘蛛;但我需要能够多次调用 Spider() 函数来跟踪链接,这是我的代码:
import httplib, sys, re
def spider(target, link):
try:
conn = httplib.HTTPConnection(target)
conn.request("GET", "/")
r2 = conn.getresponse()
data = r2.read().split('\n')
for x in data[:]:
if link in x:
a=''.join(re.findall("href=([^ >]+)",x))
a=a.translate(None, '''"'"''')
if a:
return a
except:
exit(0)
print spider("www.yahoo.com", "http://www.yahoo.com")
但我只从输出中获得 1 个链接,我怎样才能使所有链接都成为这个链接?
还有如何从链接中获取子站点,以便蜘蛛可以跟踪它们?