我使用 Scrapy 进行网络抓取,使用 Polipo 作为代理,使用 Tor 作为网络。我知道我的代理会产生轮换 IP,但 IP 位置大部分时间都在我的国家之外。在我抓取的网站上,考虑到 IP 的位置,它可能会受到一些阻碍。那么,如何保持循环IP规则并限制使用IP的位置呢?
Scrapy 版本:1.5.0,Python 版本:2.7.9,Tor 版本:0.3.4.8,Vidalia:0.2.21
很可能您知道这一点,但是您正在抓取的网站的最终 ip 将看到出口节点的 ip。因此,您可以使用配置控制出口节点的国家/地区
您可以在您的请求集中运行多个 tor 设置并混合匹配或轮换 tor 服务。