我想弄清楚如何使用代理和多线程。
此代码有效:
requester = urllib3.PoolManager(maxsize = 10, headers = self.headers)
thread_pool = workerpool.WorkerPool()
thread_pool.map(grab_wrapper, [item['link'] for item in products])
thread_pool.shutdown()
thread_pool.wait()
然后在grab_wrapper
requested_page = requester.request('GET', url, assert_same_host = False, headers = self.headers)
标头包括:Accept、Accept-Charset、Accept-Encoding、Accept-Language 和 User-Agent
但这在生产中不起作用,因为它必须通过代理,不需要授权。
我尝试了不同的东西(传递proxies
给请求,在标头中等)。唯一有效的是:
requester = urllib3.proxy_from_url(self._PROXY_URL, maxsize = 7, headers = self.headers)
thread_pool = workerpool.WorkerPool(size = 10)
thread_pool.map(grab_wrapper, [item['link'] for item in products])
thread_pool.shutdown()
thread_pool.wait()
现在,当我运行程序时,它将发出 10 个请求(10 个线程),然后……停止。没有错误,没有任何警告。这是我可以绕过代理的唯一方法,但它似乎无法同时proxy_from_url
使用WorkerPool
。
任何想法如何将这两者结合成一个工作代码?由于时间限制,我宁愿避免将其重写为scrapy等
问候