我有一个 python 脚本,它接受几个 url 的输入。我的脚本循环遍历这些 url 并从每个页面打印出 htmltext。网站会将其视为 3 个单独的 GET 请求,因此对站点有 3 个“点击”,还是会看到套接字连接并将其视为对页面的 1 个“点击”?
我认为这是通过检查调试的第一个选项,如果是这样,是否可以从同一站点上的多个 URL 获取数据,但该站点仅将其视为站点的 1 个“命中”?我可以利用保持活动功能在 urllib3 中实现这一点吗?
我的脚本如下:
for u in url:
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
req = urllib2.Request(u)
req.add_header('User-Agent','Mozilla/5.0')
print urllib2.build_opener(urllib2.HTTPHandler(debuglevel=1)).open(req)
resp = opener.open(req)
htmltext = resp.read()