我创建了一个蜘蛛,它使用 Scrapy 从 Yelp 中抓取数据。所有请求都通过 Crawlera 代理。Spider 获取要抓取的 URL,发送请求并抓取数据。这一直很好,直到前几天我开始收到 502 None 响应。执行此行后出现 502 None 响应:
r = self.req_session.get(url, proxies=self.proxies, verify='../secret/crawlera-ca.crt').text
追溯:
2020-11-04 14:27:55 [urllib3.connectionpool] DEBUG: https://www.yelp.com:443 "GET /biz/a-dog-in-motion-arcadia HTTP/1.1" 502 None
因此,蜘蛛似乎无法访问 URL,因为连接已关闭。
我在 Scrapy 和 Crawlera 文档中检查了 502 的含义,它指的是连接被拒绝、关闭、域不可用和类似的事情。我已经调试了与问题发生位置相关的代码,并且一切都是最新的。
如果有人对此有想法或知识,我很乐意听到,因为我被困住了。这里实际上可能是什么问题?
注意:当我在浏览器中打开 Yelp URL 时,它们可以正常工作。