我正在使用 Scrapy 编写网络抓取工具。我需要访问的一些站点需要我与它们交互,所以我使用 Splash 发出请求,这允许我这样做。这目前工作得很好。
为了防止我的爬虫被阻止,我希望请求通过一组代理服务器,所以我为此使用了 Scrapoxy。
我现在遇到的问题是,据我所知,请求以以下方式流动:-
Scrapy -> Scrapoxy -> Splash -> 目标网站
代替 :-
Scrapy -> Splash -> Scrapoxy -> 目标网站
有可能解决这个问题吗?
如果没有,是否可以使用任何其他无头浏览器或代理 IP 旋转器来解决此问题?